Nghiên cứu, đánh giá các thuật toán xử lý tín hiệu tiếng nói và ứng dụng (có kèm theo code matlab)

75 1.7K 16
Nghiên cứu, đánh giá các thuật toán xử lý tín hiệu tiếng nói và ứng dụng (có kèm theo code matlab)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Chương 1: Tổng quan về tiếng nói và xử lý tiếng nói. Chương này tìm hiểu tổng quan về tiếng nói: trình bày khái quát cơ chế phát âm, các đặc tính vật lý cũng như âm học của tiếng nói, các quá trình: biểu diễn số tiếng nói, mã hóa tiếng nói, tổng hợp tiếng nói.Chương 2: Một số thuật toán và phương pháp trong xử lý tín hiệu tiếng nói. Chương này nghiên cứu về sử dụng phương pháp LPC trong tổng hợp tiếng nói và 2 thuật toán phổ biến Spectral Subtration và Wiener Filtering để nâng cao chất lượng tiếng nóiChương 3: Xây dựng và đánh giá các thuật toán xử lý tín hiệu tiếng nói. Chương này xây dựng các lưu đồ thuật toán và thực hiện các thuật toán giảm nhiễu mô phỏng bằng Matlab, sau đó tiến hành đánh giá kết quả thu được.

MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ TIẾNG ANH Từ viết tắt Tiếng Anh Tiếng Việt Chuyển đổi tín hiệu tương tự sang tín hiệu số Điều chế mã xung vi phân thích ứng Chuyển đổi tín hiệu số sang tín hiệu tương tự ADC Analog-to-digital converter ADPCM Adaptive differential pulse code modulation DAC Digital-to-analog converter DCT Discrete Cosine Transform Biến đổi cosine rời rạc DFT Discrete Fourier Transform Biến đổi fourier rời rạc DM Delta Modulation Điều chế delta DPCM Differential pulse-code modulation Điều chế mã xung vi phân DSP Digital signal processing Xử lý tín hiệu số FFT Fast Fourier Transform Biến đổi fourier nhanh IC integrated circuit Vi mạch tích hợp IDFT Inverse Discrete Fourier Transform Biến đổi fourier rời rạc ngược IS Initial Silence Khoảng im lặng LPC Linear Prediction Coefficient Hệ số dự đoán tuyến tính LPF Low Pass Filter Lọc thông thấp MOS Mean Opinion Score Chỉ số đánh giá chủ quan PCM Pulse Code Modulation Điều chế mã xung S&H Sample and hold Lấy giữ mẫu tín hiệu SNR Signal-to-noise ratio Chỉ số tín hiệu nhiễu VAD Voice Activity Detection Thăm dò hoạt động tiếng nói VLSI Very-large-scale integration Vi mạch qui mô lớn DANH MỤC CÁC HÌNH VẼ LỜI MỞ ĐẦU Trong thời đại ngày nay, với phát triển mạnh mẽ khoa học kỹ thuật vấn đề trao đổi thông tin đa phương tiện ngày trở nên cần thiết, từ lúc đầu giao tiếp, tương tác thông qua văn giấy tờ, ngày nhu cầu sử dụng tiếng nói truyền thông, tương tác người máy trở nên cấp thiết Vì mà trình xử lý tiếng nói, đặc biệt thuật toán xử lý nâng cao chất lượng tiếng nói đời Tuy bảo toàn y nguyên tín hiệu ban đầu sử dụng thuật toán ta tăng cường chất lượng tiếng nói giảm bớt nhiễu để tín hiệu sau xử lý đến người nghe mang đầy đủ nội dung thông tin không gây khó chịu nhiễu người nghe Vì vậy, để tìm hiểu kỹ thuật xử lý tín hiệu tiếng nói em chọn đề tài “Nghiên cứu, đánh giá thuật toán xử lý tín hiệu tiếng nói ứng dụng” làm nội dung nghiên đồ án tốt nghiệp Nội dung đồ án kết cấu thành chương: Chương 1: Tổng quan tiếng nói xử lý tiếng nói Chương tìm hiểu tổng quan tiếng nói: trình bày khái quát chế phát âm, đặc tính vật lý âm học tiếng nói, trình: biểu diễn số tiếng nói, mã hóa tiếng nói, tổng hợp tiếng nói Chương 2: Một số thuật toán phương pháp xử lý tín hiệu tiếng nói Chương nghiên cứu sử dụng phương pháp LPC tổng hợp tiếng nói thuật toán phổ biến Spectral Subtration Wiener Filtering để nâng cao chất lượng tiếng nói Chương 3: Xây dựng đánh giá thuật toán xử lý tín hiệu tiếng nói Chương xây dựng lưu đồ thuật toán thực thuật toán giảm nhiễu mô Matlab, sau tiến hành đánh giá kết thu Cuối em xin chân thành cảm ơn thầy giáo TS Vũ Văn Sơn tận tình hướng dẫn, giúp đỡ em hoàn đồ án tốt nghiệp CHƯƠNG TỔNG QUAN VỀ TIẾNG NÓI VÀ XỬ LÝ TIẾNG NÓI 1.1 Tổng quan tiếng nói Âm lời nói âm giới tự nhiên, chất sóng âm lan truyền môi trường định (thường không khí) Khi nói dây hầu nhĩ bị chấn động, tạo nên sóng âm, sóng truyền không khí đến màng nhĩ làm cho màng nhĩ dao động, dây thần kinh màng nhĩ nhận cảm giác âm tần số dao động sóng đạt đến độ lớn định Tai người cảm thụ dao động có tần số từ khoảng 16Hz đến khoảng 20000Hz Những dao động miền tần số gọi dao động âm hay âm thanh, sóng tương ứng gọi sóng âm Những sóng có tần số nhỏ 16Hz gọi hạ âm, sóng có tần số lớn 20000Hz gọi sóng siêu âm, người không cảm nhận (ví du loài dơi nghe tiếng siêu âm) Sóng âm, sóng siêu âm hạ âm không tryền không khí mà lan truyền tốt môi trường rắn, lỏng, sử dụng nhiều thiết bị máy móc Hình 1.1 Tín hiệu tiếng nói Về chất vật lí, sóng âm, sóng siêu âm, sóng hạ âm không khác sóng học khác Sự phân biệt dựa vào khả cảm thụ sóng học tai người, đặc tính sinh lí tai người định Vì sóng âm phân biệt hai loại đặc tính đặc tính vật lý đặc tính âm học 1.1.1 Cơ chế phát âm người 10 11 12 13 14 15 Hốc mũi Vòm miệng Ổ Vòm miệng mềm Đầu lưỡi Thân lưỡi Lưỡi gà Cơ miệng Yết hầu Nắp đóng quản Dây giả Dây Thanh quản Thực quản Khí quản Hình 1.2 Bộ máy phát âm người Quá trình phát âm người mô tả sau: Áp lực tạo từ phổi làm cho quản phát rung động Lỗ giãn quản gọi môn Tuyến âm kích thích nguồn lượng môn Tiếng nói tạo sóng âm học kích thích từ môn phát đẩy không khí có phổi lên tạo thành dòng khí va chạm vào hai dây tuyến âm Hai dây dao động tạo cộng hưởng, dao động âm lan truyền theo tuyến âm (tính từ tuyến âm đến khoang miệng) sau qua khoang mũi, môi tạo tiếng nói Thanh quản bị làm cứng, nới lỏng (do thần kinh điều khiển cơ) để thay đổi tốc độ dãn Cơ quan chắn khoang mũi khoang miệng hoạt động cổng hốc âm mũi hốc âm miệng, đóng hay cô lập để mở để kết hợp với gốc âm miệng cách hài hòa tình khác ngôn ngữ khác Lưỡi, quai hàm, răng, môi thay đổi vị trí không gian để thay đổi hình dạng hốc âm miệng, sóng áp lực âm phát từ miệng, phụ thuộc vào liên kết âm phát suy hao quan phản xạ Sóng áp lực âm tồn dạng di chuyển liên tục luồng khí, đến quan thính giác phản ánh qua thông số: độ rõ, âm sắc, độ cao, độ lớn âm 1.1.2 Đặc tính vật lý âm Bản chất âm tiếng nói sóng học nên có tính chất sóng học Các tính sóng học mang ý nghĩa khác xét góc độ âm tiếng nói Tín hiệu âm tiếng nói tín hiệu ngẫu nhiên không dừng, nhiên đặc tính tương đối ổn định khoảng thời gian ngắn (vài chục mili giây) Trong khoảng thời gian nhỏ tín hiệu gần tuần hoàn coi tuần hoàn • Tần số Tần số sóng học hay gọi độ cao, độ trầm bổng âm Tần số đặc trưng vật lý quan trọng âm Âm phát độ cao định, đồ trầm bổng âm phụ thuộc vào chấn động nhanh hay chậm phần tử không khí đơn vị thời gian định Độ cao âm phụ thuộc vào tần số dao động Âm trầm có tần số nhỏ, âm cao có tần số lớn Độ cao nữ thường cao so với nam độ cao tiếng nói trẻ em cao so với người lớn, điều tương tự tần số dây • Cường độ Cường độ độ to nhỏ âm thanh, cường độ đồ lớn âm truyền xa môi trường có nhiễu Cường độ biên độ dao động định Trong ngôn ngữ, phụ âm thường mạnh nguyên âm, đặc điểm góp phần nhận diện khác biệt phụ âm nguyên âm âm tiếng nói Tuy nhiên tai người giá trị tuyệt đối cường độ âm I không quan trọng giá trị tỉ đối I so với giá trị I0 làm chuẩn Người ta định nghĩa mức cường độ âm L logarit thập phân tỉ số I/I0: (đơn vị mức cường độ Ben- kí hiệu B) L( B ) = lg • I I0 (1.1) Trường độ Trường độ hay độ dài âm phụ thuộc vào chấn động lâu hay nhanh phần tử không khí Cùng âm từ khác độ dài khác Trường độ sử dựng để phân biệt nguyên âm đài ngắn, phân biệt “a” với “ă” hay “ơ” với “â” tiếng Việt • Âm sắc Là sắc thái riêng âm cá thể khác tạo Âm sắc nguyên nhân gây khác biệt giọng nói người với người khác Âm sắc có tượng cổng hưởng 1.1.3 Đặc tính âm học âm Tín hiệu tiếng nói tín hiệu tương tự biểu diễn cho thông tin mặt ngôn ngữ mô tả âm vị khác Tuỳ theo ngôn ngữ cụ thể mà số lượng âm vị nhiều hay Thông thường số lượng âm vị vào khoảng 20 – 30 nhỏ 50 ngôn ngữ Đối với loại âm vị mà có đặc tính âm khác Các âm vị chia thành hai loại nguyên âm phụ âm Tổ hợp âm vị tạo nên âm tiết Âm tiết đóng vai trò từ trọn vẹn mang ngữ nghĩa • Nguyên âm Các nguyên âm coi lớp thú vị lớp âm tiếng nói, đặc biệt Tiếng Anh Tầm quan trọng chúng lĩnh vực nhận dạng tiếng nói lớn, hầu hết hệ thống nhận dạng dựa sở nhận dạng nguyên âm có tính tốt Trong nói, nguyên âm tạo cách kích thích ống dẫn âm có hình dạng cố định xung áp lực khí giả tuần hoàn rung động dây sinh Hình dạng vùng cục dọc theo ống dẫn âm xác định tần số cộng hưởng (các formants) âm tạo Việc tạo nguyên âm cụ thể định vị trí lưỡi, hàm, môi… Các nguyên âm nói chung có thời gian tồn dài (so với phụ âm) dễ xác định phổ Chính mà dễ dàng cho việc nhận dạng Có số cách biểu diễn đặc trưng nguyên âm, bao gồm cấu hình khoang miệng, đồ thị dạng song tín hiêu đồ thị phổ • Phụ âm Phụ âm tạo dòng khí hỗn loạn phát gần điểm co thắt đường dẫn âm cách phát âm tạo thành Dòng không khí chỗ đóng vòm miệng tạo phụ âm tắc Những phụ âm xát phát từ chỗ co thắt lớn âm tắc tạo từ khoảng Phụ âm có đặc tính hữu vô tuỳ thuộc việc dây có dao động để tạo thành cộng hưởng không Đặc tính phụ âm tuỳ thuộc vào tính chu kỳ dạng sóng, phổ tần số, thời gian tồn truyền dẫn âm • Formant Trong phổ tần số tín hiệu tiếng nói, đỉnh có biên độ cao xét khoảng (còn gọi cực trị địa phương) xác định formant Ngoài tần số, formant xác định biên độ dải thông chúng Về mặt vật lý tần số formant tương ứng với tần số cộng hưởng tuyến âm Trong xử lý tiếng nói tổng hợp tiếng nói để mô lại tuyến âm người ta phải xác định tham số formant loại âm vị, việc đánh giá, ước lượng formant có ý nghĩa quan trọng 10 Tần số formant biến đổi khoảng rộng phụ thuộc vào giới tính người nói phụ thuộc vào dạng âm vị tương ứng với formant Đồng thời, formant phụ thuộc âm vị trước sau Về cấu trúc tự nhiên, tần số formant có liên hệ chặt chẽ với hình dạnh kích thước tuyến âm Thông thường phổ tần số tín hiệu có khoảng formant có formant ảnh hưởng quan trọng đến đặc tính âm vị, formant lại có ảnh hưởng song Các formant có giá trị tần số xê dịch từ vài trăm đến vài nghìn Hz Tần số formant đặc trưng cho nguyên âm biến đổi tuỳ thuộc vào người nói điều kiện phát âm định Mặc dù phạm vi tần số formant tương ứng với nguyên âm trùng lên vị trí formant không đổi xê dịch formant song song Ngoài formant, âm mũi có tần số bị suy giảm gọi phản formant (anti-formant) Phản formant tạo nên luồng khí qua khoang mũi Các formant tương ứng với điểm cực hàm truyền đạt lân cận điểm cực giá trị hàm truyền đạt lớn, tương tự anti-formant tương ứng với điểm không hàm truyền đạt • Tần số Dạng sóng tiếng nói gồm hai phần: phần gần giống nhiễu biên độ biến đổi ngẫu nhiên phần tuần hoàn Phần tín hiệu có tính chu kỳ chứa thành phần tần số có dạng điều hòa Tần số thấp tần số tần số dao động dây dây Đối với người nói khác nhau, tần số khác Tần số trẻ em thường cao so với người lớn nữ giới cao so với nam giới Đối với hai âm có cường độ, độ cao phân biệt tính tuần hoàn Một âm hữu có tín hiệu gần tuần hoàn phân tích phổ xuất vạch vùng tần số thấp Vạch đặc trưng cho tính 61 Hình 3.10 Dạng tín hiệu file âm nghiaEN_xehoi_snr5.wav với thuật toán Wiener Filtering Với a- Tín hiệu có nhiễu b- Tín hiệu xử lý với hệ số alpha=0.8 c- Tín hiệu xử lý với hệ số alpha=0.9 Sau tiến hành nghe thử file đầu ra, ta thấy nhiễu file âm hạn chế nhiều, không thấy tượng bị tiếng nói 3.4.2.3 Tối ưu hệ số gamma cho thuật toán Spectral Subtration Vì thuật toán Spectral Subtration thuật toán trừ nhiễu nên ta có cách trừ nhiễu trừ theo lượng trừ theo biên độ nên ta cung cấp hệ số gamma, gamma=1 trừ theo biên độ gamma=2 trừ theo lượng, sau kết dạng tín hiệu thu trường hợp 62 Hình 3.11 Dạng tín hiệu file âm nghiaEN_xehoi_snr5.wav với thuật toán Spectral Subtration Với a- Tín hiệu có nhiễu b- Tín hiệu xử lý với hệ số gamma=1 c- Tín hiệu xử lý với hệ số gamma=2 Sau tiến hành nghe thử file kết ta nhận thấy hệ số gamma=2 tức trừ theo lượng file đầu không tốt hệ số gamma=1, nghe có tượng bị âm Ta chọn hệ số gamma tối ưu 3.4.2.4 Kết luận tối ưu hai thuật toán 63 Sau thực tham khảo hệ số thử nghiệm ta chọn hệ số tối ưu là: Thuật toán VAD: hệ số IS=0,15, NoiseMargin=2 Thuật toán Wiener Filtering: hệ số alpha=0.8 Thuật toán Spectral Subtration: hệ số gamma=1 (trừ theo biên độ) 3.4.2.5 Đánh giá độ ổn định thuật toán môi trường nhiễu khác Ta tiến hành xử lý file âm nghiaEN_nguoinoi_snr5.wav file tín hiệu âm cộng nhiễu người nói xung quanh với mức SNR 5dB với tham số tối ưu nhiễu xe Thực nghe tín hiệu qua xử lý thấy mội số file tín hiệu có đoạn nghe nhiễu không nghe tiếng nói Điều giải thích nhiễu người nói có lượng nhiễu tương đương với lượng tiếng nói, file tín hiệu tiếng nói có mức lượng thấp mức lượng nhiễu nên đoạn tiếng nói bị trừ lại nhiễu Tiến hành nghe thử file đầu ra, ta thấy nhiễu người nói xung quanh (babble noise) thuật toán Spectral Subtration xử lý tốt thuật toán Wiener Filtering Một số đoạn lẫn nhiễu vào tiếng nói, thông số chưa phù hợp với nhiễu người nói Nhận xét chung: Khi đem thông số tối ưu để xử lý nhiễu xe áp dụng với nhiễu người nói xung quanh kết qua không tốt Ta cần phải thay đổi thông số phù hợp với nhiễu khác Đối với nhiễu người nói xung quanh thuật toán Spectral Subtration tác động tốt thuật toán Wiener Filtering 64 Hình 3.12 Dạng tín hiệu file âm nghiaEN_nguoinoi_snr5.wav Với a- Tín hiệu có nhiễu b- Tín hiệu xử lý thuật toán Spectral Subtration c- Tín hiệu xử lý thuật toán Wiener Filtering 3.5 Kết luận chương Chương giúp ta tiến xây dựng lưu đồ thuật toán thực thuật toán giảm nhiễu mô Matlab, sau tiến hành đánh giá kết thu Sau thực đủ bước thu kết mô phỏng, ta có số nhận xét sau: - Thuật toán Spectral Subtration Wiener Filtering thực tương đối tốt công việc giảm nhiễu nâng cao chất lượng tiếng nói 65 - Đối với loại nhiễu khác tác động thuật toán tăng cường - khác Đối với mức nhiễu nhiễu khác tác động thuật toán tăng cường khác KẾT LUẬN ĐỒ ÁN Ngày xử lý tín hiệu tiếng nói lĩnh vực có tiềm phát triển mạnh mẽ gắn liền với ứng dụng thực tế đời sống xã hội Đặc biệt vấn đề xử lý nhiễu, nâng cao chất lượng tiếng nói quan tâm Trong dịch vụ truyền thông dịch vụ viễn thông vấn đề cải thiện chất lượng tiếng nói vấn đề cấp thiết Đồ án thực nội dung: Nghiên cứu phương pháp xử lý tín hiệu tiếng nói, đặc biệt tập trung thuật toán khử nhiễu kinh điển Spectral Subtration Wiener Filtering Xây dựng chương trình thực thuật toán Spectral Subtration Wiener Filtering chương trình matlab, sau thực khử nhiễu với file âm cụ thể Đánh giá tính hiệu thuật toán ta thấy thuật toán xử lý nhiễu tốt, tiếng nói thu đạt chất lượng tương đối cao, độ ổn định thuật toán phụ thuộc vào môi trường nhiễu mức độ nhiễu khác Loại bỏ nhiễu khỏi tín hiệu tiếng nói công việc không đơn giản, việc xử lý loại bỏ nhiễu không tốt gây thông tin, làm suy giảm méo dạng tín hiệu tiếng nói Vì vậy, việc nghiên cứu phương pháp cải thiện chất lượng tiếng nói đóng vai trò quan trọng việc đảm bảo chất lượng tính trung thực tín hiệu tiếng nói thông tin liên lạc Giảm nhiễu - nâng cao chất lượng tiếng nói giải pháp kỹ thuật quan trọng nhằm hỗ trợ cho mảng xử lý tiếng nói khác nhận dạng người nói, trợ thính môi trường nhiễu xe hơi, đám đông, xưởng công nghiệp… ứng dụng mạnh mẽ dịch vụ truyền thông đa phương tiện như: thoại, âm nhạc, truyền hình hội nghị… 66 Do thời gian trình độ hạn chế nên đồ án khó thể tránh khỏi thiếu sót, em mong nhận đóng góp thầy cô bạn để đồ án hoàn thiện Cuối em xin chân thành cảm ơn thầy giáo TS Vũ Văn Sơn tận tình hướng dẫn, giúp đỡ em hoàn đồ án tốt nghiệp 67 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Quốc Trung, “Xử lý tín hiệu số - tập 1”, NXB Khoa học kỹ thuật, 1998 [2] Tuan V Pham, DUT, “Speech Enhancement” Slides, Summer 2009 Tiếng Anh [3] JAE S Lim, Member, IEEE, “Enhancement and Bandwidth Compression of Noisy Speech”, 1979 [4] Lawrence R Rabiner and Ronald Schafer, “Digital Processing of Speech Signal”, Prentice-Hall, 1978 [5] Pascal Scalart, IEEE “Speech Enhancement based on A Priori Signal to Noise estimation”, 1996 [6] Peter Vary, Rainer Martin, “Digital Speech Transmission”, Copyright © 2006 [7] Saeed V Vaseghi, Brunel university, UK ,“Advanced Digital Signal Processing and Noise Reduction 2nd Edition”, Copyright © 2000 by John Wiley & Sons, Ltd [8] Steven F.Boll, Member, IEEE, “Suppression of Acoustic Noise in Speech Using Spectral Subtraction” , 1979 PHỤ LỤC Chương trình mô thuật toán Spectral Subtration function [output,Speech]=SSBoll79(signal,fs,IS) if (nargin1 && i

Ngày đăng: 11/05/2017, 21:49

Từ khóa liên quan

Mục lục

  • LỜI MỞ ĐẦU

  • CHƯƠNG 1 TỔNG QUAN VỀ TIẾNG NÓI VÀ XỬ LÝ TIẾNG NÓI

    • 1.1 Tổng quan về tiếng nói

      • 1.1.1 Cơ chế phát âm của con người

      • 1.1.2 Đặc tính vật lý của âm thanh

      • 1.1.3 Đặc tính âm học của âm

      • 1.1.4 Phân loại đơn giản tiếng nói

      • 1.2 Hệ thống xử lý số tín hiệu

      • 1.3 Biểu diễn số tín hiệu tiếng nói

        • 1.3.1 Lấy mẫu tín hiệu tiếng nói

        • 1.3.2 Lượng tử hóa

        • 1.3.3 Nén tín hiệu

        • 1.4 Mã hóa tiếng nói

          • 1.4.1 Mã hóa dạng sóng

            • 1.4.1.1 Mã hóa trên miền thời gian

            • 1.4.1.2 Mã hóa trong miền tần số

            • 1.4.2 Mã hóa nguồn

            • 1.4.3 Mã hóa lai

            • 1.5 Tổng hợp tiếng nói

              • 1.5.1 Tổng hợp trực tiếp

              • 1.5.2 Tổng hợp tiếng nói theo Formant

              • 1.5.3 Tổng hợp dùng bộ máy phát âm

              • 1.5.4 Tổng hợp LPC

              • 1.6 Kết luận chương

              • Ngày nay tín hiệu tiếng nói trở thành đối tượng và cũng là nguồn tải lớn nhất của mạng viễn thông, cùng với sự phát triển của kỹ thuật số, các công nghệ hiện đại thì các phương pháp xử lý tín hiệu tiếng nói cũng phát triển mạnh, vì vậy tìm hiểu tín hiệu tiếng nói là một vấn đề quan trọng. Chương 1 của đồ án đã nghiên cứu về tiếng nói (đặc tính vật lý, đặc tính âm học, cơ chế phát âm,…) và các phương pháp xử lý tiếng nói như mã hóa tiếng nói hay tổng hợp tiếng nói.

              • CHƯƠNG 2 MỘT SỐ THUẬT TOÁN VÀ PHƯƠNG PHÁP TRONG XỬ LÝ TÍN HIỆU TIẾNG NÓI

                • 2.1 Thuật toán Spectral Subtration và Wiener Filtering

                  • 2.1.1 Thuật toán Spectral Subtraction

                    • 2.1.1.1 Đối với phổ biên độ

Tài liệu cùng người dùng

Tài liệu liên quan