Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 75 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
75
Dung lượng
11,18 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI CHU MINH HUẤN Học viên: Chu Minh Huấn ĐO LƯỜNG VÀ CÁC HỆ THỐNG ĐIỀU KHIỂN ĐỀ TÀI : NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI SỬ DỤNG PHƯƠNG PHÁP TÁCH NGUỒN MÙ – ỨNG DỤNG CHO HỆ THỐNG NHẬN DẠNG TIẾNG NÓI LUẬN VĂN THẠC SĨ KỸ THUẬT … ĐO LƯỜNG VÀ CÁC HỆ THỐNG ĐIỀU KHIỂN 2011B Hà Nội – Năm 2014 Tai ngay!!! Ban co the xoa dong chu nay!!! 17061131968771000000 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Học viên: Chu Minh Huấn ĐỀ TÀI : NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI SỬ DỤNG PHƯƠNG PHÁP TÁCH NGUỒN MÙ – ỨNG DỤNG CHO HỆ THỐNG NHẬN DẠNG TIẾNG NÓI CHUYÊN NGÀNH: ĐO LƯỜNG VÀ CÁC HỆ THỐNG ĐIỀU KHIỂN LUẬN VĂN THẠC SĨ KỸ THUẬT … ĐO LƯỜNG VÀ CÁC HỆ THỐNG ĐIỀU KHIỂN NGƯỜI HƯỚNG DẪN KHOA HỌC : PGS.TS NGUYỄN QUỐC CƯỜNG Hà Nội – Năm 2014 MỤC LỤC Trang Trang phụ bìa Lời cảm ơn i Lời cam đoan ii Danh mục chữ viết tắt iii Danh mục hình vẽ iv MỞ ĐẦU Chương – BÀI TOÁN NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI – PHƯƠNG PHÁP TÁCH NGUỒN MÙ Giới thiệu chương 1.1 Giới thiệu tốn nâng cao chất lượng tiếng nói 1.1.1 Nâng cao chất lượng tiếng nói 1.1.2 Các phương pháp nâng cao chất lượng tiếng nói 1.1.2.1 Kỹ thuật nâng cao chất lượng trường hợp đơn kênh 1.1.2.2 Kỹ thuật nâng cao chất lượng trường hợp đa kênh 1.1.3 Phương pháp phân tách tiếng nói nâng cao chất lượng tiếng nói 1.2 Phương pháp tách nguồn mù ứng dụng nâng cao chất lượng tiếng 7 nói 1.2.1 Giới thiệu chung 1.2.2 Các hướng tiếp cận phương pháp tách nguồn mù 1.2.2.1 Phương pháp phân tích thành phần độc lập (Independent Component Analysis – ICA) 1.2.2.2 Phương pháp ước lượng nguồn đầu vào có tính đến suy hao 12 (Degenerate Unmixing Estimation Technique – DUET) Kết luận chương CHƯƠNG – KỸ THUẬT TÁCH NGUỒN MÙ VỚI THUẬT TOÁN 13 14 DUET Giới thiệu chương 14 2.1 Giới thiệu thuật toán DUET 14 2.2 Các giả thiết cần có thuật tốn DUET 15 2.2.1 Các nguồn âm khơng vọng 15 2.2.2 Các nguồn có tính trực giao rời rạc 16 2.2.3 Các nguồn tín hiệu có tính ổn định cục 17 2.2.4 Các đầu thu cách đủ gần 17 2.2.5 Các nguồn phân biệt với không gian 18 2.3 Kỹ thuật ước lượng nguồn đầu vào có tính đến suy hao - DUET 18 2.3.1 Khái quát chung kỹ thuật DUET 18 2.3.2 Lược đồ trọng số hai chiều 19 2.3.3 Quá trình phân tách nguồn 21 2.4 Mở rộng thuật toán DUET 23 2.4.1 Tăng giới hạn độ trễ 23 2.4.2 Phương pháp xấp xỉ nguồn trực giao rời rạc 24 Kết luận chương 26 CHƯƠNG – TRIỂN KHAI THUẬT TOÁN DUET NÂNG CAO CHẤT 27 LƯỢNG TIẾNG NÓI Giới thiệu chương 27 3.1 Bài tốn với N nguồn tín hiệu ( N ≥ )đầu vào 27 3.2 Thực thiết kế phần mềm 27 3.2.1 Thiết kế giao diện Matlab 28 3.2.2 Triển khai thuật tốn 31 3.2.3 Q trình thiết kế 32 3.3 Chạy mô đánh giá kết 3.3.1 Chạy mơ chương trình 33 33 3.3.1.1 Thử nghiệm DUET với số lượng đầu vào thay đổi 33 3.3.1.2 Thử nghiệm DUET với nguồn biên độ khác 46 3.3.1.3 Thử nghiệm DUET với nguồn độ trễ lớn 3.3.2 Đánh giá kết 48 50 Kết luận chương 51 CHƯƠNG – ỨNG DỤNG THUẬT TOÁN DUET TRONG HỆ THỐNG 52 NHẬN DẠNG TIẾNG NÓI Giới thiệu chương 52 4.1 Tổng quan nhận dạng tiếng nói 52 4.1.1 Các hướng tiếp cận nhận nhận dạng tiếng nói 53 4.1.2 Các phương pháp trích chọn tham số đặc trưng tiếng nói 54 4.1.2.1 Phân tích cepstral theo thang đo mel 54 4.1.2.2 Phương pháp mã dự đốn tuyến tính LPC (Linear Predictive 55 Coding) 4.1.2.3 Phương pháp dự đốn tuyến tính trực giác PLP (Perceptual Linear 56 Prediction) 4.2 Các mơ hình nhận dạng tiếng nói 4.2.1 Mơ hình Markov ẩn (Hidden Markov Model – HMM) 57 57 4.2.1.1 Quá trình Markov 58 4.2.1.2 Các thành phần HMM 58 4.2.1.3 Ba toán của mơ hình Markov ẩn 58 4.2.2 Mơ hình mạng neural nhân tạo (Artificial Neural Networks – ANN) 4.2.2.1 Cấu trúc mạng neural nhân tạo 59 60 4.3 Ứng dụng kỹ thuật DUET hệ thống nhận dạng tiếng nói 62 Kết luận chương 63 KẾT LUẬN VÀ KIẾN NGHỊ 65 TÀI LIỆU THAM KHẢO 66 Luận văn bảo vệ trước hội đồng ngày 23 tháng 04 năm 2014, chỉnh sửa bổ sung theo yêu cầu hội đồng Người hướng dẫn khoa học PGS.TS Nguyễn Quốc Cường Chủ tịch hội đồng TS Trần Đỗ Đạt MỞ ĐẦU Cơ sở lựa chọn đề tài Trong suốt nửa thể kỷ vừa qua, lĩnh vực nghiên cứu xử lý tiếng nói khơng ngừng đạt nhiều thành tựu chứng kiến giai đoạn phát triển mạnh mẽ Cho tới ngày nay, với phát triển không ngừng kỹ thuật công nghệ chế tạo thiết bị tự động, ứng dụng xử lý tiếng nói dần mở rộng phạm vi nhiều lĩnh vực sống Cùng với đặt nhiều tốn cho vấn đề xử lý tiếng nói, đặc biệt vấn đề nâng cao chất lượng tiếng nói Các vấn đề tiền xử lý để thu tiếng nói cần quan tâm chất lượng cho phép đưa vào xử lý (nhận dạng, điều khiển, ).Và vấn đề quan tâm năm gần đây, toán “Cocktail party” Bài toán đặt yêu cầu: để tách riêng biệt tiếng nói từ nguồn hỗn hợp tiếng nói nhiều người? Trong lĩnh vực nâng cao chất lượng tiếng nói, vấn đề không dễ dàng Và phương pháp đề xuất tỏ hiệu cho toán phương pháp tách nguồn mù Phương pháp áp dụng nhiều lĩnh vực xử lý tín hiệu khác y sinh, xử lý âm thanh, hình ảnh, nhận dạng.v.v “Tách nguồn mù” thu hút nhiều nghiên cứu với nhiều thành tựu kỹ thuật thuật toán Điều cho thấy tách nguồn mù phương pháp hiệu có khả ứng dụng rộng rãi Có thể nói, tập trung vào tốn nhằm mơ lại khả người thuật tốn, tích hợp cho thiết bị điện tử, dường xu cho hướng nghiên cứu ngày Là người quan tâm tới lĩnh vực xử lý nhận dạng âm – hình ảnh, em mạnh dạn chọn hướng nghiên cứu “Sử dụng phương pháp tách nguồn mù cho nâng cao chất lượng tiếng nói”, với đề tài nghiên cứu: “Nâng cao chất lượng tiếng nói sử dụng phương pháp tách nguồn mù – Ứng dụng cho hệ thống nhận dạng tiếng nói” Mục đích nghiên cứu luận văn: - Tìm hiểu kỹ thuật nâng cao chất lượng tiếng nói phương pháp tách nguồn mù - Tìm hiểu ứng dụng tách nguồn mù nâng cao chất lượng tiếng nói - Tìm hiểu ứng dụng tách nguồn mù cho hệ thống nhận dạng tiếng nói Đối tượng phạm vi nghiên cứu: - Các kỹ thuật nâng cao chất lượng tiếng nói - Phương pháp tách nguồn mù - Sử dụng kỹ thuật phương pháp tách nguồn mù nâng cao chất lượng tiếng nói - Ứng dụng phương pháp tách nguồn mù nâng cao chất lượng tiếng nói cho hệ thống nhận dạng tiếng nói Tuy nhiên giới hạn thời gian, nên luận văn chưa triển khai ứng dụng Phương pháp nghiên cứu: - Nghiên cứu sở lý thuyết nâng cao chất lượng tiếng nói - Nghiên cứu sở lý thuyết phương pháp tách nguồn mù sử dụng vào nâng cao chất lượng tiếng nói - Nghiên cứu ứng dụng kỹ thuật tách nguồn mù cho hệ thống nhận dạng tiếng nói - Triển khai thực tế kỹ thuật tách nguồn mù nâng cao chất lượng tiếng nói đánh giá kết Nội dung luận văn: o Chương Bài toán nâng cao chất lượng tiếng nói – Phương pháp tách nguồn mù o Chương Kỹ thuật tách nguồn mù với thuật toán DUET o Chương Triển khai thuật toán DUET nâng cao chất lượng tiếng nói o Chương Ứng dụng thuật tốn DUET hệ thống nhận dạng tiếng nói CHƯƠNG1 BÀI TỐN NÂNG CAO CHẤT LƯỢNG TIẾNG NĨI – PHƯƠNG PHÁP TÁCH NGUỒN MÙ Giới thiệu chương Ngày nay, với phát triển khoa học công nghệ máy móc thiết bị ngày trở lên thơng minh có giao diện thân thiện với người Những lực người đươc chép dần cho thiết bị máy móc Và hướng nhận dạng âm Đây hướng đem lại lợi ích nhiều mặt cho nhân loại, phương diện nghiên cứu khoa học, công nghiệp, y tế đời sống v.v… Tuy vậy, khả nghe, vả xử lý âm người vô tinh vi phức tạp, khơng dễ tái lại chép cho thiết bị điện tử Và thách thức trình xây dựng hệ thống nhận dạng tiếng nói tốn xử lý nâng cao chất lượng tiếng nói Đây vấn đề nhận lưu tâm đặc biệt phát triển năm gần Trong nội dung chương này, luận văn đề cập tới: - Bài tốn nâng cao chất lượng tiếng nói số phương pháp phổ biến nâng cao chất lượng tiếng nói - Ứng dụng phương pháp tách nguồn mù nâng cao chất lượng tiếng nói 1.1 Giới thiệu toán nâng cao chất lượng tiếng nói Phương pháp nhận dạng thơng qua tiếng nói trở lên phổ biến nhiều lĩnh vực, đặc biệt với ứng dụng an ninh, bảo mât Các ứng dụng thường phát triển với nhiều điều kiện lý tưởng, phải nghiêm ngặt phòng nghiên cứu Tuy nhiên, thực chất lượng tiếng nói thu thường sai khác nhiều so với lý thuyết Và đó, tín hiệu tiếng nói đầu vào cần xử lý trước đưa vào nhận dạng 1.1.1 Nâng cao chất lượng tiếng nói Trong thực tế, có nhiều nguyên nhân gây sai khác tín hiệu đầu vào so với tín hiệu gốc Và ta thường thấy có số yếu tố sau: Nhiễu cộng hưởng: Thường xuất thu âm tiếng nói mơi trường có nhiễu đáng kể, ví dụ sân bay Tiếng vọng âm thanh: Gây trình thu xuất dội lại tín hiệu âm Hiệu ứng chập kênh: Thường gây vấn đề kênh thu âm, khơng có chuẩn hóa tốt dẫn tới không triệt tiêu xung đáp ứng Tạp âm: Thường xuất thu âm môi trường có nhiều âm phức tạp Méo phi tuyến, nhiễu cộng hưởng điện từ băng tần rộng v.v Do đó, tốn nâng cao chất lượng tiếng nói thường nhắm tới việc bù nhiễu bù kênh gây yếu tố bất lợi Và nhìn chung “chất lượng” đề cập đây, tối thiểu phải đáp ứng yếu tố rõ ràng, dễ nhận biết, dễ nghe phù hợp với phương pháp xử lý phía sau phần nâng cao chất lương Tuy nhiên nội dung luận văn quan tâm tới ứng dụng nâng cao chất lượng tiếng nói hệ thống nhận dạng, đó, luận văn xem xét trường hợp nhỏ: Đơn kênh/ Đa kênh [12] phương pháp phân tách tiếng nói 1.1.2 Các phương pháp nâng cao chất lượng tiếng nói 1.1.2.1 Kỹ thuật nâng cao chất lượng trường hợp đơn kênh [12] Đây trường hợp tồn kênh tín hiệu, hay nói cách khác có đầu vào nguồn tín hiệu Thường gặp số hệ thống thơng dụng tín hiệu điện thoại bàn hay đàm, hay lưu trữ tín hiệu máy thu âm Trong trường hợp thường giả thiết nhiễu cố định mức độ thay đổi tiếng nói biết Với trường hợp người ta thường hay dùng phương pháp trừ phổ (Spectral Subtraction - SS) Tinh thần chung phương pháp mơ tả hình 1-1 trình bày chi tiết [32]