Nâng cao chất lượng tiếng nói sử dụng phương pháp tách nguồn mù ứng dụng cho hệ thống nhận dạng tiếng nói

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI CHU MINH HUẤN Học viên: Chu Minh Huấn ĐO LƯỜNG VÀ CÁC HỆ THỐNG ĐIỀU KHIỂN ĐỀ TÀI : NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI SỬ DỤNG PHƯƠNG PHÁP TÁCH NGUỒN MÙ – ỨNG DỤNG CHO HỆ THỐNG NHẬN DẠNG TIẾNG NÓI LUẬN VĂN THẠC SĨ KỸ THUẬT … ĐO LƯỜNG VÀ CÁC HỆ THỐNG ĐIỀU KHIỂN 2011B Hà Nội – Năm 2014 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Học viên: Chu Minh Huấn ĐỀ TÀI : NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI SỬ DỤNG PHƯƠNG PHÁP TÁCH NGUỒN MÙ – ỨNG DỤNG CHO HỆ THỐNG NHẬN DẠNG TIẾNG NÓI CHUYÊN NGÀNH: ĐO LƯỜNG VÀ CÁC HỆ THỐNG ĐIỀU KHIỂN LUẬN VĂN THẠC SĨ KỸ THUẬT … ĐO LƯỜNG VÀ CÁC HỆ THỐNG ĐIỀU KHIỂN NGƯỜI HƯỚNG DẪN KHOA HỌC : PGS.TS NGUYỄN QUỐC CƯỜNG Hà Nội – Năm 2014 MỤC LỤC Trang Trang phụ bìa Lời cảm ơn i Lời cam đoan ii Danh mục chữ viết tắt iii Danh mục hình vẽ iv MỞ ĐẦU Chương – BÀI TOÁN NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI – PHƯƠNG PHÁP TÁCH NGUỒN MÙ Giới thiệu chương 1.1 Giới thiệu tốn nâng cao chất lượng tiếng nói 1.1.1 Nâng cao chất lượng tiếng nói 1.1.2 Các phương pháp nâng cao chất lượng tiếng nói 1.1.2.1 Kỹ thuật nâng cao chất lượng trường hợp đơn kênh 1.1.2.2 Kỹ thuật nâng cao chất lượng trường hợp đa kênh 1.1.3 Phương pháp phân tách tiếng nói nâng cao chất lượng tiếng nói 1.2 Phương pháp tách nguồn mù ứng dụng nâng cao chất lượng tiếng 7 nói 1.2.1 Giới thiệu chung 1.2.2 Các hướng tiếp cận phương pháp tách nguồn mù 1.2.2.1 Phương pháp phân tích thành phần độc lập (Independent Component Analysis – ICA) 1.2.2.2 Phương pháp ước lượng nguồn đầu vào có tính đến suy hao 12 (Degenerate Unmixing Estimation Technique – DUET) Kết luận chương 13 CHƯƠNG – KỸ THUẬT TÁCH NGUỒN MÙ VỚI THUẬT TOÁN 14 DUET Giới thiệu chương 14 2.1 Giới thiệu thuật toán DUET 14 2.2 Các giả thiết cần có thuật tốn DUET 15 2.2.1 Các nguồn âm khơng vọng 15 2.2.2 Các nguồn có tính trực giao rời rạc 16 2.2.3 Các nguồn tín hiệu có tính ổn định cục 17 2.2.4 Các đầu thu cách đủ gần 17 2.2.5 Các nguồn phân biệt với không gian 18 2.3 Kỹ thuật ước lượng nguồn đầu vào có tính đến suy hao - DUET 18 2.3.1 Khái quát chung kỹ thuật DUET 18 2.3.2 Lược đồ trọng số hai chiều 19 2.3.3 Quá trình phân tách nguồn 21 2.4 Mở rộng thuật toán DUET 23 2.4.1 Tăng giới hạn độ trễ 23 2.4.2 Phương pháp xấp xỉ nguồn trực giao rời rạc 24 Kết luận chương 26 CHƯƠNG – TRIỂN KHAI THUẬT TOÁN DUET NÂNG CAO CHẤT 27 LƯỢNG TIẾNG NÓI Giới thiệu chương 27 3.1 Bài tốn với N nguồn tín hiệu ( N ≥ )đầu vào 27 3.2 Thực thiết kế phần mềm 27 3.2.1 Thiết kế giao diện Matlab 28 3.2.2 Triển khai thuật tốn 31 3.2.3 Q trình thiết kế 32 3.3 Chạy mô đánh giá kết 3.3.1 Chạy mơ chương trình 33 33 3.3.1.1 Thử nghiệm DUET với số lượng đầu vào thay đổi 33 3.3.1.2 Thử nghiệm DUET với nguồn biên độ khác 46 3.3.1.3 Thử nghiệm DUET với nguồn độ trễ lớn 48 3.3.2 Đánh giá kết 50 Kết luận chương 51 CHƯƠNG – ỨNG DỤNG THUẬT TOÁN DUET TRONG HỆ THỐNG 52 NHẬN DẠNG TIẾNG NÓI Giới thiệu chương 52 4.1 Tổng quan nhận dạng tiếng nói 52 4.1.1 Các hướng tiếp cận nhận nhận dạng tiếng nói 53 4.1.2 Các phương pháp trích chọn tham số đặc trưng tiếng nói 54 4.1.2.1 Phân tích cepstral theo thang đo mel 54 4.1.2.2 Phương pháp mã dự đốn tuyến tính LPC (Linear Predictive 55 Coding) 4.1.2.3 Phương pháp dự đốn tuyến tính trực giác PLP (Perceptual Linear 56 Prediction) 4.2 Các mơ hình nhận dạng tiếng nói 4.2.1 Mơ hình Markov ẩn (Hidden Markov Model – HMM) 57 57 4.2.1.1 Quá trình Markov 58 4.2.1.2 Các thành phần HMM 58 4.2.1.3 Ba toán của mơ hình Markov ẩn 58 4.2.2 Mơ hình mạng neural nhân tạo (Artificial Neural Networks – ANN) 4.2.2.1 Cấu trúc mạng neural nhân tạo 59 60 4.3 Ứng dụng kỹ thuật DUET hệ thống nhận dạng tiếng nói 62 Kết luận chương 63 KẾT LUẬN VÀ KIẾN NGHỊ 65 TÀI LIỆU THAM KHẢO 66 Luận văn bảo vệ trước hội đồng ngày 23 tháng 04 năm 2014, chỉnh sửa bổ sung theo yêu cầu hội đồng Người hướng dẫn khoa học PGS.TS Nguyễn Quốc Cường Chủ tịch hội đồng TS Trần Đỗ Đạt MỞ ĐẦU Cơ sở lựa chọn đề tài Trong suốt nửa thể kỷ vừa qua, lĩnh vực nghiên cứu xử lý tiếng nói khơng ngừng đạt nhiều thành tựu chứng kiến giai đoạn phát triển mạnh mẽ Cho tới ngày nay, với phát triển không ngừng kỹ thuật công nghệ chế tạo thiết bị tự động, ứng dụng xử lý tiếng nói dần mở rộng phạm vi nhiều lĩnh vực sống Cùng với đặt nhiều tốn cho vấn đề xử lý tiếng nói, đặc biệt vấn đề nâng cao chất lượng tiếng nói Các vấn đề tiền xử lý để thu tiếng nói cần quan tâm chất lượng cho phép đưa vào xử lý (nhận dạng, điều khiển, ).Và vấn đề quan tâm năm gần đây, toán “Cocktail party” Bài toán đặt yêu cầu: để tách riêng biệt tiếng nói từ nguồn hỗn hợp tiếng nói nhiều người? Trong lĩnh vực nâng cao chất lượng tiếng nói, vấn đề không dễ dàng Và phương pháp đề xuất tỏ hiệu cho toán phương pháp tách nguồn mù Phương pháp áp dụng nhiều lĩnh vực xử lý tín hiệu khác y sinh, xử lý âm thanh, hình ảnh, nhận dạng.v.v “Tách nguồn mù” thu hút nhiều nghiên cứu với nhiều thành tựu kỹ thuật thuật toán Điều cho thấy tách nguồn mù phương pháp hiệu có khả ứng dụng rộng rãi Có thể nói, tập trung vào tốn nhằm mơ lại khả người thuật tốn, tích hợp cho thiết bị điện tử, dường xu cho hướng nghiên cứu ngày Là người quan tâm tới lĩnh vực xử lý nhận dạng âm – hình ảnh, em mạnh dạn chọn hướng nghiên cứu “Sử dụng phương pháp tách nguồn mù cho nâng cao chất lượng tiếng nói”, với đề tài nghiên cứu: “Nâng cao chất lượng tiếng nói sử dụng phương pháp tách nguồn mù – Ứng dụng cho hệ thống nhận dạng tiếng nói” Mục đích nghiên cứu luận văn: - Tìm hiểu kỹ thuật nâng cao chất lượng tiếng nói phương pháp tách nguồn mù - Tìm hiểu ứng dụng tách nguồn mù nâng cao chất lượng tiếng nói - Tìm hiểu ứng dụng tách nguồn mù cho hệ thống nhận dạng tiếng nói Đối tượng phạm vi nghiên cứu: - Các kỹ thuật nâng cao chất lượng tiếng nói - Phương pháp tách nguồn mù - Sử dụng kỹ thuật phương pháp tách nguồn mù nâng cao chất lượng tiếng nói - Ứng dụng phương pháp tách nguồn mù nâng cao chất lượng tiếng nói cho hệ thống nhận dạng tiếng nói Tuy nhiên giới hạn thời gian, nên luận văn chưa triển khai ứng dụng Phương pháp nghiên cứu: - Nghiên cứu sở lý thuyết nâng cao chất lượng tiếng nói - Nghiên cứu sở lý thuyết phương pháp tách nguồn mù sử dụng vào nâng cao chất lượng tiếng nói - Nghiên cứu ứng dụng kỹ thuật tách nguồn mù cho hệ thống nhận dạng tiếng nói - Triển khai thực tế kỹ thuật tách nguồn mù nâng cao chất lượng tiếng nói đánh giá kết Nội dung luận văn: o Chương Bài toán nâng cao chất lượng tiếng nói – Phương pháp tách nguồn mù o Chương Kỹ thuật tách nguồn mù với thuật toán DUET o Chương Triển khai thuật toán DUET nâng cao chất lượng tiếng nói o Chương Ứng dụng thuật tốn DUET hệ thống nhận dạng tiếng nói CHƯƠNG1 BÀI TỐN NÂNG CAO CHẤT LƯỢNG TIẾNG NĨI – PHƯƠNG PHÁP TÁCH NGUỒN MÙ Giới thiệu chương Ngày nay, với phát triển khoa học công nghệ máy móc thiết bị ngày trở lên thơng minh có giao diện thân thiện với người Những lực người đươc chép dần cho thiết bị máy móc Và hướng nhận dạng âm Đây hướng đem lại lợi ích nhiều mặt cho nhân loại, phương diện nghiên cứu khoa học, công nghiệp, y tế đời sống v.v… Tuy vậy, khả nghe, vả xử lý âm người vô tinh vi phức tạp, khơng dễ tái lại chép cho thiết bị điện tử Và thách thức trình xây dựng hệ thống nhận dạng tiếng nói tốn xử lý nâng cao chất lượng tiếng nói Đây vấn đề nhận lưu tâm đặc biệt phát triển năm gần Trong nội dung chương này, luận văn đề cập tới: - Bài tốn nâng cao chất lượng tiếng nói số phương pháp phổ biến nâng cao chất lượng tiếng nói - Ứng dụng phương pháp tách nguồn mù nâng cao chất lượng tiếng nói 1.1 Giới thiệu toán nâng cao chất lượng tiếng nói Phương pháp nhận dạng thơng qua tiếng nói trở lên phổ biến nhiều lĩnh vực, đặc biệt với ứng dụng an ninh, bảo mât Các ứng dụng thường phát triển với nhiều điều kiện lý tưởng, phải nghiêm ngặt phòng nghiên cứu Tuy nhiên, thực chất lượng tiếng nói thu thường sai khác nhiều so với lý thuyết Và đó, tín hiệu tiếng nói đầu vào cần xử lý trước đưa vào nhận dạng 1.1.1 Nâng cao chất lượng tiếng nói Trong thực tế, có nhiều nguyên nhân gây sai khác tín hiệu đầu vào so với tín hiệu gốc Và ta thường thấy có số yếu tố sau: Nhiễu cộng hưởng: Thường xuất thu âm tiếng nói mơi trường có nhiễu đáng kể, ví dụ sân bay Tiếng vọng âm thanh: Gây trình thu xuất dội lại tín hiệu âm Hiệu ứng chập kênh: Thường gây vấn đề kênh thu âm, khơng có chuẩn hóa tốt dẫn tới không triệt tiêu xung đáp ứng Tạp âm: Thường xuất thu âm môi trường có nhiều âm phức tạp Méo phi tuyến, nhiễu cộng hưởng điện từ băng tần rộng v.v Do đó, tốn nâng cao chất lượng tiếng nói thường nhắm tới việc bù nhiễu bù kênh gây yếu tố bất lợi Và nhìn chung “chất lượng” đề cập đây, tối thiểu phải đáp ứng yếu tố rõ ràng, dễ nhận biết, dễ nghe phù hợp với phương pháp xử lý phía sau phần nâng cao chất lương Tuy nhiên nội dung luận văn quan tâm tới ứng dụng nâng cao chất lượng tiếng nói hệ thống nhận dạng, đó, luận văn xem xét trường hợp nhỏ: Đơn kênh/ Đa kênh [12] phương pháp phân tách tiếng nói 1.1.2 Các phương pháp nâng cao chất lượng tiếng nói 1.1.2.1 Kỹ thuật nâng cao chất lượng trường hợp đơn kênh [12] Đây trường hợp tồn kênh tín hiệu, hay nói cách khác có đầu vào nguồn tín hiệu Thường gặp số hệ thống thơng dụng tín hiệu điện thoại bàn hay đàm, hay lưu trữ tín hiệu máy thu âm Trong trường hợp thường giả thiết nhiễu cố định mức độ thay đổi tiếng nói biết Với trường hợp người ta thường hay dùng phương pháp trừ phổ (Spectral Subtraction - SS) Tinh thần chung phương pháp mơ tả hình 1-1 trình bày chi tiết [32] Phương pháp xây dựng dựa cảm nhận tai người dải tần số khác Với tần số thấp (dưới 1000 Hz), độ cảm nhận tai người tuyến tính Đối với tần số cao, độ biến thiên tuân theo hàm logarit Các băng lọc tuyến tính tần số thấp biến thiên theo hàm logarit tần số cao sử dụng để trích chọn đặc trưng âm học quan trọng tiếng nói Mơ hình tính tốn hệ số MFCC mơ tả hình 4-2 đây, nói rõ tài liệu [18] Hình 4-2 Trích chọn đặc trưng MFCC [18] 4.1.2.2 Phương pháp mã dự đoán tuyến tính LPC (Linear Predictive Coding) Mơ hình LPC sử dụng để trích lọc tham số đặc trưng tín hiệu tiếng nói Kết q trình phân tích tín hiệu thu chuỗi gồm khung tiếng nói Các khung biến đổi nhằm sử dụng cho việc phân tích âm học Nội dung phân tích dự báo tuyến tính là: mẫu tiếng nói xấp xỉ tổ hợp tuyến tính mẫu trước Thơng qua việc tối thiểu hóa tổng bình 55 phương sai số mẫu với mẫu dự đốn xác định tập hệ số dự báo Các hệ số dự báo trọng số sử dụng tổ hợp tuyến tính Mơ hình trình xử lý với phương pháp LPC minh họa hình 4-3 trình bày chi tiết [37] Hình 4-3 Phương pháp LPC [37] 4.1.2.3 Phương pháp dự đốn tuyến tính trực giác PLP (Perceptual Linear Prediction) Phương pháp PLP phát triển Hermansky Đây kết hợp hai phương pháp Mơ hình PLP xây dựng ý tưởng dựa theo q trình nghe người Nó cho phép loại bỏ thơng tin khơng liên quan giọng nói, nâng cao tỉ lệ nhận dạng tiếng nói Về PLP tương đồng với LPC, ngoại trừ điểm đặc tính phổ biến đổi cho phù hợp với đặc tính âm người [18] Nhìn chung mơ hình phương pháp PLP giống hình 4-4 trình xử lý hình 4-5 Phân tích giải tần quan tâm Ω( ) Cân độ ồn E(ω) Luật cường độ nghe S(ω) Hình 4-4 Sơ đồ khổi PLP [18] 56 Hình 4-5 Q trình tính tốn tham số PLP [18] 4.2 Các mơ hình nhận dạng tiếng nói 4.2.1 Mơ hình Markov ẩn (Hidden Markov Model – HMM) HMMs mơ hình thống kê có sức mạnh việc mơ hình liệu hay liên tục theo thời gian HMMs sử dụng thành công cho nhiều mục đích như: nhận dạng tiếng nói, phân tích chuỗi protein ADN, điều khiển robot, trích thơng tin từ liệu văn HMMs giới thiệu từ cuối năm 1960 đầu năm 1970 kỉ trước Ban đầu vấn đề huấn luyện khó khăn Năm 1970, Baum vài người cơng bố phương pháp cực đại hố mà cung cấp giải pháp cho vấn đề huấn luyện mơ hình với quan sát đơn Năm 1977, Dempster công bố phương pháp Expectation Maximization việc ước tính độ giống cực đại từ liệu Năm 1983, Levinsons giới thiệu phương pháp độ giống cực đại (maximum likelihood) cho huấn luyện HMMs nhiều chuỗi quan sát độc lập với Kể từ đó, HMMs sử dụng rộng rãi nhận dạng tiếng nói 57 4.2.1.1 Quá trình Markov Xét hệ thống mà đố thời điểm nào, ta mơ tả N trạng thái phân biệt S1 , S , , S N Tại thời điểm t hệ thống đo xác suất chuyển từ trạng thái Si , sang N-1 trạng thái lại, chuyển trở lại thức trạng thái Si Kết suất hệ thống chuỗi trạng thái thời điểm t tương ứng 4.2.1.2 Các thành phần HMM N: số trạng thái Tập trạng thái S = ( S1 , S , S N ) Trạng thái quan sát thời điểmt qt M: số tượng quan sát trạng thái đầu hệ V = {V1 ,V2 , ,VM } Xác suất chuyển trạng thái A = {a ij} aij = P  qi +1= S j qt = Si  ≤ i, j ≤ N Xác suất quan sát tượng trạng thái j B = {b j (k)} với b j (k )= P vk = t qt = Si  ≤ j ≤ N ≤ k ≤ M Trạng thái khởi tạo Π ={π i } = π i P= [ q1 Si ] với ≤ i ≤ N Chuỗi kết quan sát O = O1O2 ON Ot tượng quan sát V T: số trạng thái quan sát Mỗi mơ hình HMM đại diện tham số λ = ( A, B, π ) 4.2.1.3 Ba toán của mơ hình Markov ẩn  Bài tốn – Đánh giá xác suất: Mục tiêu toán thứ tính p (O λ ) – xác suất phát sinh O từ mơ hình λ 58  Bài tốn – Tìm chuỗi trạng thái tối ưu: Mục tiêu tốn tìm chuỗi trạng thái “tối ưu” Q = q1q2 qT phát sinh O  Bài toán – Vấn đề huấn luyện: Đây toán phức tạp ba toán Mục tiêu toán tìm cách cập nhật lại tham số mơ hình λ = ( A, B, π ) cho cực đại hóa xác suất p (O λ ) – xác suất quan sát chuỗi tín hiệu O phát sinh từ mơ hình 4.2.2 Mơ hình mạng neural nhân tạo (Artificial Neural Networks – ANN) Hình thành từ ý tưởng mô lại não người với neural cung cấp khả nhớ, suy nghĩ, khả ứng dụng kinh nghiệm qua vào hoạt động sống Mỗi neural đựơc nói với triệu neural khác, khả não phụ thuộc vào thành phần liên kết chúng lại với Các neural có thành phần gồm dendrites, some, axon, synapses Về bản, neural sinh học nhận ngõ vào từ nguồn khác kết nối chúng lại theo cách khác nhau, thực hoạt động xử lý phi tuyến đưa kết cuối ngõ Từ ý tưởng ta xây dựng mạng neural với đơn vị mạng neural, neural nhân tạo, mô chức hoạt động neural tự nhiên Các neural tự nhiên đơn giản nhiều so với neural sinh học Hình 4-6 mơ tả thành phần neural nhân tạo Hình 4-6 Các thành phần neural nhân tạo 59 4.2.2.1 Cấu trúc mạng neural nhân tạo Cách thức kết nối nơron mạng xác định kiến trúc (topology) mạng Các nơron mạng kết nối đầy đủ (fully connected) tức nơron kết nối với tất nơron khác, kết nối cục (partially connected) chẳng hạn kết nối nơron tầng khác Người ta chia hai loại kiến trúc mạng chính: ♦ Tự kết hợp (autoassociative): mạng có nơron đầu vào nơron đầu Mạng Hopfield kiểu mạng tự kết hợp Hình 4-7 Mạng tự kết hợp ♦ Kết hợp khác kiểu (heteroassociative): mạng có tập nơron đầu vào đầu riêng biệt Perceptron, mạng Perceptron nhiều tầng (MLP: MultiLayer Perceptron), mạng Kohonen, … thuộc loại Hình 4-8 Mạng kết hợp khác kiểu 60 Ngoài tùy thuộc vào mạng có kết nối ngược (feedback connections) từ nơron đầu tới nơron đầu vào hay không, người ta chia làm loại kiến trúc mạng ♦ Kiến trúc truyền thẳng (feedforward architechture): kiểu kiến trúc mạng khơng có kết nối ngược trở lại từ nơron đầu nơron đầu vào; mạng không lưu lại giá trị output trước trạng thái kích hoạt nơron Các mạng nơron truyền thẳng cho phép tín hiệu di chuyển theo đường nhất; từ đầu vào tới đầu ra, đầu tầng khơng ảnh hưởng tới tầng Các mạng kiểu Perceptron mạng truyền thẳng Hình 4-9 Mạng truyền thẳng ♦ Kiến trúc phản hồi (Feedback architecture): kiểu kiến trúc mạng có kết nối từ nơron đầu tới nơron đầu vào Mạng lưu lại trạng thái trước đó, trạng thái khơng phụ thuộc vào tín hiệu đầu vào mà phụ thuộc vào trạng thái trước mạng Mạng Hopfield thuộc loại 61 Hình 4-10 Mạng phản hồi 4.3 Ứng dụng kỹ thuật DUET hệ thống nhận dạng tiếng nói Dù với với hướng tiếp cận hệ thống nhận dạng tiếng nói, hay với phương pháp trích chọng tham số đặc trưng chất lượng tín hiệu tiếng nói đầu vào vơ quan trọng Sẽ khơng thể có hệ thống nhận dạng tin cậy, xác suất cao tín hiệu sau xử lý bị nhiễu, nhòe chí bị lẫn tạp âm khác Như nói chương luận văn, tiền xử lý nói chung nâng cao chất lượng tiếng nói, nói riêng khâu đoạn ảnh hưởng lớn tới kết nhận dạng tiếng nói Tiền xử lý tiếng nói Hỗn hợp tiếng nói Nâng cao chất lượng tiếng nói DUET Nhận dạng tiếng nói Hình 4-11 Sơ đồ khối hệ thống nhận dạng tiếng nói ứng dụng DUET cho nâng cao chất lượng tiếng nói 62 Một hệ thống nhận dạng tiếng nói có ứng dụng kỹ thuật DUET mơ tả hình 4-11 Trong đó, hỗn hợp tiếng nói, gồm tiếng nói nhiều người có lẫn nhiễu đưa qua khâu tiền xử lý trước đưa vào khâu nhận dạng Trong khâu đoạn tiền xử lý, làm nhiều thao tác để chuẩn hóa, lấy mẫu, phân đoạn tín hiệu tiếng nói, trước đưa tới khâu nâng cao chất lượng tiếng nói Tiếng nói sau vào khâu nâng cao chất lượng tiếng nói xử lý loại bỏ nhiễu âm khơng phải tiếng nói Khi này, tín hiệu tiếng nói thành hỗn hợp nhiều tiếng nói nhiều người khác sẵn sàng đưa vào khâu xử lý tách nguồn mù kỹ thuật DUET Tín hiệu đầu từ khâu tách nguồn mù DUET đưa trực tiếp vào khâu nhận dạng tiếng nói Thực thao tác trích chọn tham số đặc trưng dùng PLP, LPC hay MFCC, … với mơ hình nhận dạng HMM ANN Với thử nghiệm chương 3, DUET chứng minh nhiều ưu mình, đặc biệt đơn giản q trình tính tốn Điều giảm bớt nhiều gánh nặng tính tốn hệ thống nhận dạng, để tâp trung cho tính tốn mơ hình nhận dạng thường cồng kềnh Trong chương này, với ý tưởng xuất phát luận văn tích hợp DUET vào hệ thống nhận dạng đánh giá đáp ứng DUET hệ thống hoàn thiện Nhưng số nguyên nhân thời gian có hạn, nên q trình chưa hoàn thiện thời gian Tuy nhiên ý tưởng tiếp tục triển khai sớm đưa đánh giá đáp ứng DUET với hệ thống xử lý tiếng nói hoàn chỉnh Kết luận chương: Trong chương 4, luận văn trình bày khái quát hệ thống nhận dạng, theo số nội dung sau: - Tổng quan hệ thống nhận dạng: hướng tiếp cận phương pháp trích chọn tham số đặc trưng tiếng nói - Các mơ hình nhận dạng tiếng nói: mơ hình HMM ANN - Mơ hình hệ thống nhận dạng tiếng nói có ứng dụng DUET 63 Tuy nhiên, giới hạn thời gian số yếu tố, luận văn chưa thể thực triển khai hệ thống nhận dạng tiếng nói ứng dụng kỹ thuật DUET Đây điều đáng tiếc, nhiên thời gian tới tiếp tục triển khai hoàn thiện hệ thống 64 KẾT LUẬN VÀ KIẾN NGHỊ Kết luận Qua trình nghiên cứu nhận kết sau:  Tìm hiểu phương pháp nâng cao chất lượng tiếng nói  Tìm hiểu đượcphương pháp tách nguồn mù  Triển khai phương pháp tách nguồn mù để nâng cao chất lượng tiếng nói  Tìm hiểu hệ thống nhận dạng tiếng nói Tuy nhiên, giới hạn thời gian, nên luận văn chưa triển khai ứng dụng cho hệ thống nhận dạng tiếng nói Ứng dụng sớm thực để đưa vào đánh giá đáp ứng phương pháp tách nguồn mù Kiến nghị Qua tìm hiểu đánh giá, kết thử nghiệm cho thấy :  Tách nguồn mù ý nghĩa cho tốn nâng cao chất lượng tiếng nói  Kỹ thuật DUET tỏ hiệu qua cho q trình tách nguồn mù tiếng nói Nhưng cần cải tiến thêm kỹ thuật ước lượng DUET, để có đáp ứng tốt 65 TÀI LIỆU THAM KHẢO A Bell and T Sejnowski (1995), An information-maximization approach to blind separation and blind deconvolution, Neural Computation, vol 7, pp 1129 –1159 A Cichocki and S Amari (2002), Adaptive Blind Signal and Image Processing Wiley A Jourjine, S Rickard, and O Yılmaz (June 2000), Blind Separation of Disjoint Orthog-onal Signals: Demixing N Sources from Mixtures, in Proc ICASSP2000, June 5–9, 2000, Istanbul, Turkey Alexander George Westner (1996), Object –Based Audio Capture : Separating Acoustically - Mixed Sound, Rutgers University B Coleman and S Rickard (July 2004), Cardioid microphones and DUET, in IEE Irish Signals and Systems Conference (ISSC2004), pp 264–269 B Widrow and S D Stearns (1985), Adaptive Signal Processing, PrenticeHall E Weinstein, M Feder, and A Oppenheim (Oct 1993), Multi-channel signal separation by decorrelation, IEEE Trans on Speech and Audio Processing,vol.1,no.4, pp 405–413 H Broman, U Lindgren, H Sahlin, and P Stoica (1999), Source separation: A TITO system identification approach, Signal Processing, vol 73, pp 169–183 H Krim and M Viberg (July 1996), Two Decades of Array Signal Processing Research, The Parametric Approach, IEEE Signal Processing Magazine, pp 67–94 10 J Cardoso (Oct 1998), Blind signal separation: Statistical principles, Proceedings of IEEE, Special Issue on Blind System Identification and Estimation, pp 2009–2025 66 11 J González-Rodríguez et al.( 1996), Increasing Robustness in GMM Speaker Recognition Systems with Low Complexity Microphone Arrays, Proc ICSLP, somewhere in these Proceedings 12 Javier Ortega-Garcia and Joaquin Gonzalez-Rodriguez, Overview of speech enhancement techniques for automatic speaker recognition, Dept De Ingenieria Audiovisualy Comunicaciones Universidad Politecnica de Madrid, Crta Valencia km/7, Campus Sur, E-28031 Madrid, Spain 13 K.H David, R Biddulph, S Balashek (1952), Automatic recognition of spoken digits, J Acoust Soc Am.24(6), 627–642 14 L Parra and C Spence (May 2000), Convolutive blind source separation of non-stationary sources, IEEE Transactions on Speech and Audio Processing, pp 320–327 15 L Rabiner, B H Juang (2008), Historical perspective of the Field of ASR/NLU, Springer Handbook of Speech Processing, Springer-Verlag Berlin Heidelberg, pp521-537 - M Aoki, M Okamoto, S Aoki, H Matsui, T Sakurai, and Y Kaneda (2001), Sound source segregation based on estimating incident angle of each frequency com-ponent of input signals acquired by multiple microphones, Acoustical Science and Technology, vol 22, no 2, pp 149–157 16 M V Hulle (Aug 23–25 1999), Clustering approach to square and nonsquare blind source sepa-ration, in IEEE Workshop on Neural Networks for Signal Processing (NNSP), Madison, Wisconsin, pp 315–323 17 Namrata Dave (July 2013), Feature Extraction Methods LPC, PLP and MFCC In Speech Recognition, International Journal For Advance Research In Engineering And Technology Volume 1, Issue VI Gujarat Technology University, INDIA 18 O Yilmaz and S Rickard ( July 2004) , Blind separation of speech mixtures via time frequency masking, IEEE Transactions on Signal Processing, vol 52, no 7, pp 1830–1847 67 19 O Yilmaz and S Rickard( July 2004), Blind separation of speech mixtures via time–frequency masking, IEEE Transactions on Signal Processing, vol 52, no 7, pp 1830–1847 20 P Comon ( July 19–24 1998), Blind channel identification and extraction of more sources than sensors, in SPIE Conference, San Diego, pp 2–13 21 R Balan, A Jourjine, and J Rosca (1999), A particular case of the singular multi-variate AR identification and BSS problems, in 1st International Conference on Independent Component Analysis, Assuis, France 22 R.M Schwartz, Y.-L Chow, O Kimball, S Roucos, M Krasner, J Makhoul (1985), Context-dependent modeling for acoustic-phonetic recognition of continuous speech, Proc IEEE Int Conf Acoust Speech Signal Process pp 1205–1208 23 Ricky Der (2001), Blind Signal Separation, Department of Electrical and Computer Engineering McGill University 24 Robet Gavelin, Harald Klomp, Clinton Priddle, Mats Uddenfeldt (june 11, 2004), Blind Source Separation, Report for Adaptive Signal Processing Project, Department of Engineering Sciences, Uppsala University, Sweden 25 S Rickard (Sept 2006), Sparse sources are separated sources, in 14th European Signal Processing Conference (EUSIPCO) 26 S Rickard (2007), The DUET Blind Source Separation Algorithm, Blind Speech Separation, Belfield, Dublin 4, Ireland, pp217-241 27 S Rickard and O Yilmaz (May 2002) On the approximate W-disjoint orthogonality of speech, in IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Orlando, Florida, USA, pp 529–532 28 S Rickard and R Balan ( Dec 2003), Method for estimating mixing parameters and sep-arating multiple sources from signal mixtures, US Patent Applica-tion no 20030233227 68 29 S Rickard, R Balan, and J Rosca) (Dec 2001), Real-time time–frequency based blind source separation, in 3rd International Conference on Independent Component Analysis and Blind Source Separation (ICA2001 30 S Young (2008), HMMs and Related Speech Recognition Technologies, Springer Handbook of Speech Processing, Springer-Verlag Berlin Heidelberg, pp539-557 31 Saeed V.Vaseghi (2000), Advanced Digital Signal Processing and Noise Reduction, Second Edition, John Wiley & Sons Ltd,pp 333-337 32 Saeed V.Vaseghi (2000), Advanced Digital Signal Processing and Noise Reduction, Second Edition, John Wiley & Sons Ltd,pp 333-337 33 T Melia (Mar 2007), Underdetermined blind source separation in echoic environments using linear arrays and sparse representtions, Ph.D dissertation, University College Dublin, Dublin, Ireland 34 Trương Tấn Quang, Nguyễn Hữu Phương (2006), Tách âm dùng phương pháp phân tích thành phần độc lập, Tạp chí phát triển KH&CN, 9, TP Hồ chí minh 35 Trương Tấn Quang, Trần Quang Huy, Nguyễn Hữu Phương (2011), Tách nguồn mù (BSS) áp dụng cho âm số điều kiện khác nhau, Tạp chí phát triển KH&CN, 14, TP Hồ chí minh 36 Urmila Shrawankar , Techniques for feature extraction in speech recognition system, SGB Amravati University 1305 37 http://www.ni.com/example/31218/en/ 38 http://www.learnartificialneuralnetworks.com/speechrecognition.html 39 https://sites.google.com/site/fpgaacousticbeamforming/projectdefinition/delay-and-sum-beamforming 40 http://www-ljk.imag.fr/membres/Dinh-Tuan.Pham/ 41 http://web.mit.edu/6.863/share/data/corpora/timit/ 69 ... nâng cao chất lượng tiếng nói - Phương pháp tách nguồn mù - Sử dụng kỹ thuật phương pháp tách nguồn mù nâng cao chất lượng tiếng nói - Ứng dụng phương pháp tách nguồn mù nâng cao chất lượng tiếng. .. thuật nâng cao chất lượng tiếng nói phương pháp tách nguồn mù - Tìm hiểu ứng dụng tách nguồn mù nâng cao chất lượng tiếng nói - Tìm hiểu ứng dụng tách nguồn mù cho hệ thống nhận dạng tiếng nói. .. chất lượng tiếng nói số phương pháp phổ biến nâng cao chất lượng tiếng nói - Ứng dụng phương pháp tách nguồn mù nâng cao chất lượng tiếng nói 1.1 Giới thiệu tốn nâng cao chất lượng tiếng nói Phương

Định dạng
Số trang	75
Dung lượng	2,34 MB