Phân tích và phát hiện tiếng nói dựa trên đặc tính động phi tuyến.

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	119
Dung lượng	7,04 MB

Nội dung

TÓM TẮT KẾT LUẬN MỚI CỦA LUẬN ÁN 1. Luận án trình bày về vấn đề kỹ thuật trong nhận dạng tiếng nói dựa trên sự phức tạp của hệ thống động ngẫu nhiên khi bị tác động với tín hiệu phi tuyến hoặc bởi nhiễu. Hệ thống động là hỗn loạn Lorenz-Stefano với các đặc trưng động học đã được biết trước. Sự ảnh hưởng của tín hiệu tiếng nói lên đặc tính động học của hệ hỗn loạn được phân tích và so sánh với các đặc tính trong trường hợp không bị tác động. Tín hiệu được dùng để tác động lên hệ thống động là tín hiệu với các trường hợp nhiễu khác nhau. Các công cụ được dùng để đánh giá các tham số về đặc tính phi tuyến như entropy, recurrent plots,... Kết quả nghiên cứu đã cho thấy, các đặc trưng động học phi tuyến của hệ thống động có sự khác nhau khi có tiếng nói. Điều này giúp cho việc phát triển nhận dạng tiếng nói. 2. Luận án này đề xuất phương pháp phân tích VAD dựa trên đường bao vi phân trung bình của tín hiệu tiếng nói. Việc phân tích được thực hiện trong miền thời gian và có tốc độ xử lý nhanh tương đối so với các phương pháp phân tích hiện nay trong miền thời gian. Phương pháp này có khả năng phân tích tốt trong điều kiện tín hiệu tiếng nói có nhiễu. Đề xuất phương pháp phát hiện phần tín hiệu có giọng nói và phần không có giọng nói dựa trên tính toán trung bình đường bao cực trị (cực đại và cực tiểu) cục bộ của tín hiệu tiếng nói. Phương pháp này được thực hiên trên miền thời gian và không phụ thuộc vào người nói. Mô hình đề xuất được kiểm chứng với các tính hiệu thực cũng như các tín hiệu có tác động nhiễu không ổn định. Việc kiểm chứng hiệu quả của phương pháp đề xuất được đưa ra và có so sánh với các phương pháp đã được đưa ra trước khi thực hiện trong miền thời gian.

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ĐẶNG THÁI SƠN PHÂN TÍCH VÀ PHÁT HIỆN TIẾNG NÓI DỰA TRÊN ĐẶC TÍNH ĐỘNG PHI TUYẾN LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ HÀ NỘI - 2017 MỞ ĐẦU Năm mươi năm trở lại đây, lĩnh vực xử lý tín hiệu ngày quan tâm cộng đồng khoa học ứng dụng lợi ích mà mang lại Trong lĩnh vực xử lý tín hiệu tiếng nói, đa số nghiên cứu đưa số trình nhận dạng dựa miền không gian, thời gian tần số, có công trình nghiên cứu đưa ứng dụng lĩnh vực động học phi tuyến vào nhận dạng tiếng nói Cho tới nay, động học phi tuyến hỗn loạn cho thấy có phép đo lường đánh giá hiệu lĩnh vực xử lý tín hiệu [91, 116] Luận án đề cập đến nghiên cứu tín hiệu giọng nói tín hiệu khác đánh giá định lượng dựa kỹ thuật phi tuyến Các phương pháp công cụ dùng để phân tích Luận án nghiên cứu dựa vào phương pháp: • Tái tạo không gian pha: Tái tạo không gian pha công cụ hữu ích để xấp xỉ động học chuỗi thời gian Tái tạo không gian pha dùng để khám phá tham số động học tín hiệu tiếng nói • Các phép đo lường entropy phức tạp: Sự phức tạp đóng vai trò quan trọng việc hiểu chất nguồn thông tin bất ổn định chuỗi thời gian Nó áp dụng hữu hiệu vào việc định lượng tham số động học tín hiệu tiếng nói, mà tín hiệu tiếng nói xem tín hiệu sinh từ hệ thống động • Tương quan lũy thừa Lyapunov: Các công cụ hữu ích lĩnh vực động học phi tuyến Chúng dùng để phân tách tín hiệu tiếng nói • Phát tiếng nói: Hoạt động tiếng nói phát dùng phương pháp phân tích phổ tín hiệu Nó phân tách tín hiệu hữu vô thanh/nhiễu sau áp dụng kỹ thuật lọc tín hiệu cách thích hợp Mục tiêu nghiên cứu Nghiên cứu nhằm đến mục đích sau: • Phân tích tín hiệu tiếng nói ghi âm điều kiện khác nhau, sử dụng công cụ có sẵn để định lượng thành phần động học phổ công suất, phân tích lũy thừa Lyapunov, tương quan chéo, phân tích dựa tính hồi quy tái tạo không gian pha • Phân tích phức tạp thông qua đo lường, đánh giá tham số động học vốn có hệ thống động học qua phân tích tín hiệu định lượng bất ổn định chuỗi thời gian • Đề xuất phương pháp hữu hiệu khả thi để phát thời điểm đầu kết thúc âm hữu phát tín hiệu tiếng nói với cường độ âm độ dài từ Tình hình nghiên cứu nước Trong nước: Hệ thống xử lý nhận dạng tiếng Việt nghiên cứu số nhóm AILab [3] thuộc Trường Đại học Khoa học Tự nhiên TP HCM, Phòng giao tiếp tiếng nói thuộc viện MICA [78] nằm Đại học Bách khoa Hà Nội, nhóm nghiên cứu PGS Lương Chi Mai thuộc Viện Công nghệ Thông tin (Viện Khoa học Công nghệ Việt Nam) Các sản phẩm VietVoice [135], VSpeech [137] Ngoài nước: Ngày nay, nhu cầu thông tin gia tăng tương tác người máy (HCI) từ tăng theo Một số tiếp cận cho HCI thông qua việc phân tích tín hiệu điện não (EEG), phân tích tín hiệu tiếng nói phân tích cử người Trong số đó, tương tác thông qua tiếng nói cử [87] người không đòi hỏi phải gắn thiết bị lên người cách cố định, tín hiệu EEG ghi thông qua điện cực gắn lên da Việc nghiên cứu tín hiệu tiếng nói cho giao tiếp người máy phát triển mạnh năm gần [17, 45, 68, 97] Có nhiều công trình nghiên cứu liên quan đến nhận dạng đạt kết đáng kể dùng cho ứng dụng thực tế [4, 49, 72] Ví dụ, hệ thống nhận dạng tiếng nói cho tiếng Anh Via Voice [30] đưa IBM, Spoken Toolkit [18] đưa Central of Spoken Language Understanding, Speech Recognition [113] đưa Microsoft, Hidden Markov Model toolkit [143] đưa Đại học Cambridge, CMU Sphinx [127] đưa Đại học Carnegie Mellon Bên cạnh đó, hệ thống nhận dạng tiếng Pháp, Đức, Trung Quốc, tiếng Việt phát triển Mặc dù có phương pháp kỹ thuật nhận dạng tiếng Việt, chúng nhìn góc độ khác ngoại trừ góc nhìn lý thuyết phi tuyến tính Hơn nữa, hầu hết nghiên cứu dựa vào sử dụng phương pháp tuyến tính để phân tích đặc trưng thành phần tần số F0 Những đóng góp Luận án Luận án có số đóng góp sau: • Tìm thay đổi mức độ phức tạp hệ thống động ngẫu nhiên sinh tác động tín hiệu phi tuyến nhiễu Sự thay đổi đánh giá thông qua entropy sơ đồ tái xuất theo trọng số Toàn hệ thống trở thành mô hình ngẫu nhiên tác động nhiễu ngoài, tác động tín hiệu giọng nói tín hiệu âm nhạc Các ảnh hưởng định lượng cách đánh giá phức tạp (đại lượng đo lường entropy) phân tích dựa tái xuất trọng số Những nghiên cứu phương pháp tần số, thời gian-tần số động học tái xuất phi tuyến đưa Để có thông tin xác, việc xây dựng đường bao lượng đề xuất Đường bao lượng dùng để tách bạch hiệu phần tính hiệu có giọng nói phần tín hiệu giọng nói Bằng cách áp dụng kỹ thuật tần số, thời gian-tần số, lọc thông tin không thích hợp để phần tín hiệu có giọng nói nhận Sau đó, động học (tái xuất) phi tuyến áp dụng mô tả chuyển động cục quĩ đạo không gian pha tái tạo từ tín hiệu giọng nói Đo lường đánh giá chuyển động cục tốc độ cửa sổ tái xuất thực Nó cho thấy phân bố xác suất chuẩn tốc độ tái xuất cửa sổ ứng dụng thành công việc mô tả tương đồng không tương đồng tín hiệu giọng nói chí môi trường có nhiễu Do đó, phân bố xác suất thường tốc độ tái xuất cửa sổ phép đo lường để nhận dạng mẫu tín hiệu giọng nói • Các bước xử lý tín hiệu phát phần tín hiệu có tiếng nói phần tiếng nói Đề xuất phương pháp phân tích VAD dựa đường bao vi phân trung bình tín hiệu tiếng nói đưa Việc phân tích thực miền thời gian có tốc độ xử lý nhanh tương đối so với phương pháp phân tích miền thời gian Phương pháp có khả phân tích tốt điều kiện tín hiệu tiếng nói có nhiễu Đề xuất phương pháp phát phần tín hiệu có giọng nói phần giọng nói dựa tính toán trung bình đường bao cực trị (cực đại cực tiểu) cục tín hiệu tiếng nói Phương pháp thực hiên miền thời gian không phụ thuộc vào người nói Mô hình đề xuất kiểm chứng với tính hiệu thực tín hiệu có tác động nhiễu không ổn định Việc kiểm chứng hiệu phương pháp đề xuất đưa có so sánh với phương pháp đưa trước thực miền thời gian Cấu trúc Luận án Luận án gồm hai phần, phần đầu giới thiệu tổng quan lĩnh vực có liên quan đến đề tài phần thứ hai chi tiết nội dung nghiên cứu Cụ thể, cấu trúc Luận án sau: Chương nói thông tin sở liên quan đến nhận dạng tiếng nói Ở Chương này, nội dung liên quan đến đặc trưng tín hiệu tiếng nói trình bày; Sự phức tạp tín hiệu tiếng nói ứng dụng nhận dạng; Ảnh hưởng nhiễu vào kết nhận dạng tiếng nói; Khái niệm tổng quát phương pháp phát tiếng nói (VAD); Phương pháp phân tích phi tuyến ứng ứng dụng nhận dạng tiếng nói; Vấn đề xác định điểm đầu điểm cuối tín hiệu tiếng nói; Các phân tích tiếng nói theo miền thời gian miền tần số-thời gian Chương khảo sát phân tích phức tạp tín hiệu tiếng nói điều kiện có nhiễu nhiễu góc nhìn phi tuyến Ở đây, động học tín hiệu tiếng nói nghiên cứu điều kiện có nhiễu tương quan mạnh Các phép đo lường entropy sử dụng để hiểu thấu đáo phức tạp hệ thống xem công cụ xử lý tín hiệu Sự phức tạp hệ thống động hỗn loạn mạnh nghiên cứu, hệ thống động bị tác động mạnh nhiễu tín hiệu tiếng nói tín hiệu âm nhạc Sự phức tạp đo lường entropy tái xuất có trọng số cho hệ thống hỗn loạn Hiện tượng đồng hai hệ thống ngẫu nhiên với tín hiệu (ghép phức) nghiên cứu Các tiêu chí kiểm tra hệ thống hỗn loạn hệ thống hỗn loạn có tác động qua lại thông qua sai số đồng chuẩn hóa tái xuất có điều kiện Các kết mô số thực nghiệm tín hiệu thực tế cho thấy hiệu phương pháp phân tích đề xuất Nhận dạng tín hiệu giọng nói điều kiện có nhiễu lớn nhiễu tương quan nghiên cứu Hai trường hợp xem xét là:(i) tín hiệu tiếng nói người điều kiện nhiễu khác nhau, (ii) tín hiệu tiếng nói người khác điều kiện có nhiễu Kết phân tích cho thất nhận tín hiệu tiếng nói nêu cách sử dụng phương pháp thông thường, dựa tần số thời gian-tần số, mà nhiễu có tương quan nhiều với tín hiệu tiếng nói Phương pháp nhận dạng phân biệt mẫu chúng hai trường hợp cách dùng động học tái xuất phi tuyến đề xuất Các kết thực nghiệm cho thấy hiệu phương pháp phân tích đề xuất Chương nói hai đề xuất gồm (i) đề xuất phương pháp dùng cho phát hoạt động giọng nói (ii) đề xuất phương pháp đo lường nhằm phát điểm đầu - cuối tín hiệu tiếng nói miền thời gian Phương pháp đề xuất thực phân tích dựa hoạt động đường bao vi phân tín hiệu tiếng nói Các phương pháp đề xuất có tốc độ tính toán nhanh xác so sánh với phương pháp trước Ở đề xuất thứ hai, phương pháp làm bật đặc trưng mức độ cao thấp điểm kết thúc dùng hai tham số miền thời gian Các kết thực nghiệm cho thấy phương pháp phát hoạt động giọng nói làm việc tốt trường hợp có loại nhiễu khác So sánh với phương pháp trước đây, phương pháp đo lường đề đơn giản áp dụng cho ứng dụng thực tế Cuối Luận án kết luận công việc thực tương lai Chương Tổng quan nhận dạng tiếng nói 1.1 Giới thiệu Nhận dạng tiếng nói (SR) công nghệ bật, ảnh hưởng đến hội tụ ngành công nghiệp điện thoại, máy thu hình máy tính Công nghệ nhận dạng tiếng nói phát triển từ năm 50 kỉ 20, nhà nghiên cứu lĩnh vực tâm lý, ngôn ngữ, kĩ thuật điện tử, kĩ thuật máy tính bắt đầu nghiên cứu lĩnh vực Tuy nhiên, có nhiều cách tiếp cận khác cho việc nhận dạng tiếng nói, chưa thật hiệu lí chi phí, tài nguyên máy tính, thiếu tiêu chuẩn chung để tích hợp nhận dạng tiếng nói với phần mềm ứng dụng Tiếng nói định nghĩa âm phát dùng để giao tiếp người Quá trình học tiếng diễn cách tự nhiên kéo dài suốt đời Điều đặc biệt người không nhận thấy độ phức tạp cấu trúc liên kết trình Cấu trúc quản phận tạo âm người quan sinh học có đặc tính phi tuyến cao, phận hoạt động không điều khiển cách có ý thức bị ảnh hưởng vài yếu tố thay đổi từ giới tính đến trình độ giáo dục trạng thái cảm xúc Do vậy, phát âm bị biến đổi rộng với điều kiện giọng, phát âm, cách phát âm, âm mũi, độ cao, âm lượng tốc độ Ngoài ra, trình phát đi, kiểu phát âm khác thường bị méo nhiều nhiễu tiếng vang đặc tính điện thiết bị điện tử Tất biến đổi làm cho việc nhận dạng đồng tiếng nói trở thành vấn đề phức tạp Để định nghĩa trình nhận dạng tiếng nói cách xác, tác giả sử dụng nội dung sau: • Nhận dạng tiếng nói trình biến đổi tín hiệu tiếng nói sang dạng trực giao tương ứng • Nhận dạng tiếng nói tự động (Automatic speech recognition–ASR) định nghĩa độc lập, máy tính trích xuất ngôn ngữ nói sang dạng văn Nhận dạng tiếng nói tự động công cụ cho phép máy tính xác định từ mà người nói vào microphone điện thoại biến đổi chúng sang dạng văn Mô hình nguồn kênh sử dụng cho nhận dạng tiếng nói minh họa Hình 1.1, Huang đề xuất năm 2001 [43] Mặc dù kĩ thuật khác phát triển để nhận dạng tiếng nói từ hệ thống dựa nhận thức mạng thần kinh nhân tạo Thành phần đằng sau trình công nghệ trội, cách tiếp cận thống kê theo liệu, dựa mô hình Markov ẩn Hình 1.1: Mô hình nguồn kênh cho hệ thống nhận dạng tiếng nói 1.2 Bối cảnh lịch sử Lịch sử nhận dạng tiếng nói có nửa kỷ Dưới ảnh hưởng khả tính toán máy tính, thuật toán kĩ thuật tiên tiến, nhận dạng tiếng nói có bước tiến lớn so với hai thập kỉ trước Cuộc thử nghiệm để xây dựng hệ thống cho việc nhận dạng tiếng nói tự động vào năm 1950 dựa ngữ âm học Năm 1952, Phòng thí nghiệm Bell, Davis, Biddulph Balashek xây dựng hệ thống nhận dạng số độc lập cho người nói [21] sử dụng tần số cộng hưởng đo/đánh giá vùng nguyên âm số Vào năm 70 kỉ 20, nghiên cứu nhận dạng tiếng nói đạt thành tựu đáng kể Đầu tiên, lĩnh vực tách từ hay nhận dạng tiếng nói rời rạc trở nên khả thi công nghệ dựa nghiên cứu Liên Xô (cũ) Nhật Bản Velich Zagoruyko Liên Xô (cũ) cải tiến ý tưởng sử dụng nhận dạng mẫu để áp dụng vào nhận dạng tiếng nói [134] Trong Sakoe Chiba cải tiến phương pháp họ việc sử dụng chương trình động Itakura làm việc phòng thí nghiệm Bell đề xuất ý tưởng mã hóa dự đoán tuyến tính (Linear Predictive Coding LPC) mở rộng để sử dụng hệ thống nhận dạng tiếng nói thông qua việc sử dụng khoảng cách đo thích hợp dựa tham số phổ LPC [46] Trong năm 1980, hệ thống nhận dạng từ ghép phát minh dựa thuật toán liên kết từ rời rạc cho việc nhận dạng Hướng quan trọng chuyển đổi cách tiếp cận từ nhận dạng mẫu sang mô hình thống kê, đặc biệt mô hình Markov (Hidden Markov Model-HMM) [108] HMM không sử dụng rộng rãi ứng tiếng nói năm 1980 Cuối năm thập kỷ 1980, mạng thần kinh nhân tạo đưa để giải vấn đề nhận dạng tiếng nói cho mục đích phân loại tín hiệu Để tăng cường lực cho hệ thống nhận dạng tiếng nói, điển hình tiếng nói tự phát, việc xác minh lời nói phương pháp tin cậy tập trung nghiên cứu [62] 1.3 Các đặc trưng âm loại tín hiệu tiếng nói Hình 1.2: Lọc nguồn tín hiệu tiếng nói Những đặc điểm âm thông thường có từ việc phân tích tín hiệu tiếng nói nguồn thông qua lọc thời gian biến đổi tuyến tính [33, 86, 106] Hình 1.2 biểu diễn mô hình này, với e[n] kích thích từ mức âm thanh, h[n] lọc đường quản x[n] tín hiệu tiếng nói phát Việc biểu diễn đặc tính âm dựa mô hình tạo âm Vì tín hiệu tiếng nói biến đổi theo thời gian nên đặc trưng tính toán khung với giả thiết tín hiệu tiếng nói không thay đổi khung Âm tiếng nói đưa theo ba trạng thái sau: • Im lặng: Không có tiếng nói phát • Âm vô thanh: Dây quản không rung nên không tạo dạng sóng âm có chu kì ngẫu nhiên • Âm hữu thanh: Dây quản căng rung cách tuần hoàn nên tạo dạng sóng gần tuần hoàn Bộ nhận dạng tiếng nói ước lượng đặc tính lọc thường bỏ qua kích thích thông tin cho nhận dạng tiếng nói hầu hết phụ thuộc vào đặc tính quản Do đó, trình phân tách nguồn lọc nhiệm vụ quan trọng xử lý tiếng nói Dựa nhiều mô hình khác nhau, có số cách biểu diễn đặc tính âm thuận lợi cho việc nhận dạng tiếng nói Về mặt lịch sử, ảnh phổ cách biểu diễn hữu dụng dùng phân tích biến đổi Fourier thời gian ngắn Ý tưởng ảnh phổ tính toán biến đổi Fourier khoảng thời gian/tần số LPC (được xem phân tích LPC) mô hình hồi quy tự động (Auto-regression AR) kĩ thuật phân tích dựa tất điểm cực mô hình lọc nguồn Các đặc điểm nhận dạng âm có từ kĩ thuật phân tích Tuy nhiên, phân tích cepstral dùng phổ biến kĩ thuật trích xuất đặc trưng tiếng nói Mel-Frequency Cepstrum Coefficient (MFCC) tập đặc trưng dùng phổ biến MFCC đặc trưng phổ tính toán từ việc phân tích thời gian ngắn tín hiệu tiếng nói Sử dụng thang tần số phi tuyến thích hợp cho cách xử lý hệ thống tiếng nói Những mô hình thúc đẩy nhận thức dự báo nhận thức tuyến tính (Perceptua Linear Prediction–PLP) [38, 39] có cách tiếp cận tương tự với phân tích cepstral với mô hình cụ thể hệ thống thính giác Tất phương pháp tiếp cận nhấn mạnh việc phân tích phổ lượng/tần số với quan điểm xấp xỉ mô hình thính giác Thông tin pha tần số tín hiệu có bậc cao bị bỏ qua cách biểu diễn đặc trưng Những hệ thống nhận dạng tiếng nói chia thành vài dạng khác cách mô tả cách nói mà hệ thống nhận Những hệ thống dựa thực tế khó khăn ASR khả xác định người nói bắt đầu kết thúc lời nói Dưới hình thức khác nhận dạng tiếng nói • Các từ đơn DANH MỤC CÔNG TRÌNH CÔNG BỐ CỦA LUẬN ÁN [C1 ] Dang Thai Son, Thang Manh Hoang, "An Average Technique for Real Time Voice Activity Detection in Time Domain," IEEE ICCE 2016, 27-29 Jul 2016, pp 614-617 [J1 ] Thai Son Dang, Sanjay Kumar Palit, Sayan Mukherjee, Thang Manh Hoang, Santo Banerjee, "Complexity and synchronization in stochastic chaotic systems," Physical Journal Special Topics (EPJ ST) 225, 159–170, 2016 [J2 ] Dang Thai Son, Sayan Mukherjee, Thang Manh Hoang, Santo Banerjee, "An Average Technique for Real Time Voice Activity Detection in Time Domain," The Journal of Science and Technology (7 Technical Universities) 113, 2016 [J3 ] Thai Son Dang, Thang Manh Hoang, "An endpoint detection technique for voice and nonvoice recognition," The Journal of Science and Technology (7 Technical Universities) (accepted), 2016 104 TÀI LIỆU THAM KHẢO [1] Noizeus: A noisy speech corpus for evaluation of speech enhancement algorithm [2] (1969, June) Ieee recommended practice for speech quality measurements IEEE No 297-1969 , 1–24 [3] AILab Ailab [4] Albus, J., R Anderson, J Brayer, R DeMori, H.-Y Feng, S Horowitz, B Moayer, T Pavlidis, W Stallings, P Swain, et al (2012) Syntactic pattern recognition, applications, Volume 14 Springer Science & Business Media [5] Atal, B and L Rabiner (1976, Jun) A pattern recognition approach to voiced-unvoiced-silence classification with applications to speech recognition IEEE Transactions on Acoustics, Speech, and Signal Processing 24 (3), 201– 212 [6] Atal, B and M Schroeder (1978, Apr) Predictive coding of speech signals and subjective error criteria In Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP ’78., Volume 3, pp 573–576 [7] Bachu, R., S Kopparthi, B Adapa, and B Barkana (2010) Voiced/Unvoiced Decision for Speech Signals Based on Zero-Crossing Rate and Energy, pp 279– 282 Dordrecht: Springer Netherlands [8] Banerjee, S., P Saha, and A R Chowdhury (2001) Chaotic scenario in the stenflo equations Physica Scripta 63 (3), 177–180 [9] Beritelli, F., S Casale, and A Cavallaero (1998, Dec) A robust voice activity detector for wireless communications using soft computing IEEE Journal on Selected Areas in Communications 16 (9), 1818–1829 [10] Blauth, D A., V P Minotto, C R Jung, B Lee, and T Kalker (2012a) Voice activity detection and speaker localization using audiovisual cues Pattern Recognition Letters 33 (4), 373 – 380 105 106 [11] Blauth, D A., V P Minotto, C R Jung, B Lee, and T Kalker (2012b) Voice activity detection and speaker localization using audiovisual cues Pattern Recognition Letters 33 (4), 373 – 380 Intelligent Multimedia Interactivity [12] Boashash, B (2015) Time-Frequency Signal Analysis with Applications UK: Academic Press [13] Bouquin-Jeannès, R L and G Faucon (1995) Study of a voice activity detector and its influence on a noise reduction system Speech Communication 16 (3), 245 – 254 [14] Bradley, E and R Mantilla (2002) Recurrence plots and unstable periodic orbits Chaos 12 (3), 596–600 [15] Chen, Y., M Ding, and J A S Kelso (1997, December) Long Memory Processes ( 1/fa Type) in Human Coordination Physical Review Letters 79, 4501–4504 [16] Cho, Y D., K Al-Naimi, and A Kondoz (2001, Apr) Mixed decision-based noise adaptation for speech enhancement Electronics Letters 37 (8), 540–542 [17] Cohen, P R and S L Oviatt (1995) The role of voice input for human-machine communication Proceedings of the National Academy of Sciences 92 (22), 9921–9927 [18] CSLU Toolkit, (2009) Cslu toolkit, 2009 [19] Davis, A and S Nordholm (2003) A low complexity statistical voice activity detector with performance comparisons to itu-t/etsi voice activity detectors In Information, Communications and Signal Processing, 2003 and Fourth Pacific Rim Conference on Multimedia Proceedings of the 2003 Joint Conference of the Fourth International Conference on, Volume 1, pp 119–123 IEEE [20] Davis, A., S Nordholm, and R Togneri (2006) Statistical voice activity detection using low-variance spectrum estimation and an adaptive threshold IEEE Transactions on Audio, Speech, and Language Processing 14 (2), 412– 424 107 [21] Davis, K H., R Biddulph, and S Balashek (1952) Automatic recognition of spoken digits The Journal of the Acoustical Society of America 24 (6), 637–642 [22] Dimitriadis, D., P Maragos, and A Potamianos (2002, May) Modulation features for speech recognition In Acoustics, Speech, and Signal Processing (ICASSP), 2002 IEEE International Conference on, Volume 1, pp I–377–I– 380 [23] Dov, D., R Talmon, and I Cohen (2015, April) Audio-visual voice activity detection using diffusion maps IEEE/ACM Trans Audio, Speech and Lang Proc 23 (4), 732–745 [24] Erland, S and P E Greenwood (2007, Sep) Constructing 1/ω α noise from reversible markov chains Phys Rev E 76, 031114 [25] Eroglu, D., T K D Peron, N Marwan, F A Rodrigues, L d F Costa, M Sebek, I Z Kiss, and J Kurths (2014, Oct) Entropy of weighted recurrence plots Phys Rev E 90, 042919 [26] Farmer, J D and J J Sidorowichl (2013) Exploiting Chaos to Predict the Future and Reduce Noise, pp 277–330 World Scientific [27] Fraser, A M and H L Swinney (1986, Feb) Independent coordinates for strange attractors from mutual information Phys Rev A 33, 1134–1140 [28] Freeman, D., G Cosier, C Southcott, and I Boyd (1989) The voice activity detector for the pan-european digital cellular mobile telephone service In Acoustics, Speech, and Signal Processing, 1989 ICASSP-89., 1989 International Conference on, pp 369–372 IEEE [29] Gao, X., H Cao, J Zhang, J Bai1, T Zhang, and L Jia (2013) A real-time dsp-based system for voice activity detection: Design and implement International Journal of Signal Processing, Image Processing and Pattern Recognition (6), 27 – 40 [30] Garza, V R (1997) Product reviews: Continuous speech-recognition software: Naturallyspeaking edges out viavoice with hands-free editing In InfoWorld, pp 116 108 [31] Gazor, S and W Zhang (2003a, Sept) A soft voice activity detector based on a laplacian-gaussian model IEEE Transactions on Speech and Audio Processing 11 (5), 498–505 [32] Gazor, S and W Zhang (2003b, Sept) A soft voice activity detector based on a laplacian-gaussian model IEEE Transactions on Speech and Audio Processing 11 (5), 498–505 [33] Gold, B and N Morgan (1999) Speech and Audio Signal Processing: Processing and Perception of Speech and Music (1st ed.) New York, NY, USA: John Wiley & Sons, Inc [34] Haigh, J A and J S Mason (1993, Oct) Robust voice activity detection using cepstral features In TENCON ’93 Proceedings Computer, Communication, Control and Power Engineering.1993 IEEE Region 10 Conference on, Volume 3, pp 321–324 vol.3 [35] Hamila, R., J Astola, F A Cheikh, M Gabbouj, and M Renfors (1999, Jan) Teager energy and the ambiguity function IEEE Transactions on Signal Processing 47 (1), 260–262 [36] Hamila, R., M Renfors, M Gabbouj, and J Astola (1997) Time-frequency signal analysis using teager energy In Proc Fourth International Conference on Electronics, Circuits and Systems, (Cairo, Egypt), pp 911–914, December 1997 [37] Haykin, S (2001) Adaptive Filter Theory (4th ed.) New York, NY, USA: Prentice Hall [38] Hermansky, H (1990) Perceptual linear predictive (plp) analysis of speech The Journal of the Acoustical Society of America 87 (4), 1738–1752 [39] Hermansky, H., N Morgan, and H G Hirsch (1993, April) Recognition of speech in additive and convolutional noise based on rasta spectral processing In Acoustics, Speech, and Signal Processing, 1993 ICASSP-93., 1993 IEEE International Conference on, Volume 2, pp 83–86 vol.2 [40] Hilborn, R (2000) Chaos and nonlinear dynamics: an introduction for scientists and engineers (2nd ed ed.) Oxford University Press 109 [41] https://www.itu.int/net/itu-t/sigdb/genaudio/AudioForm g.aspx?val=1000050 (2009, Sept) [42] Hu, Y and P C Loizou (2007) Subjective comparison and evaluation of speech enhancement algorithms Speech Communication 49 (7–8), 588 – 601 [43] Huang, X., A Acero, and H.-W Hon (2001) Spoken Language Processing: A Guide to Theory, Algorithm, and System Development (1st ed.) Upper Saddle River, NJ, USA: Prentice Hall PTR [44] Hui, L., B.-Q Dai, and L Wei (2006, May) A pitch detection algorithm based on amdf and acf In 2006 IEEE International Conference on Acoustics Speech and Signal Processing Proceedings, Volume 1, pp I–I [45] Igarashi, T and J F Hughes (2001) Voice as sound: using non-verbal voice input for interactive control In Proceedings of the 14th annual ACM symposium on User interface software and technology, pp 155–156 ACM [46] Itakura, F (1975, Feb) Minimum prediction residual principle applied to speech recognition IEEE Transactions on Acoustics, Speech, and Signal Processing 23 (1), 67–72 [47] Iwanski, J S and E Bradley (1998) Recurrence plots of experimental data: To embed or not to embed? Chaos (4), 861–871 [48] Jaffery, Z., K Ahmad, and P Sharma (2010) Estimation of speech signal in the presence of white noise using wavelet transform In Int Conf on Control, Communication and Power Engineering ACEEE [49] Junqua, J.-C and J.-P Haton (2012) Robustness in automatic speech recognition: Fundamentals and applications, Volume 341 Springer Science & Business Media [50] Junqua, J C., B Mak, and B Reaves (1994, Jul) A robust algorithm for word boundary detection in the presence of noise IEEE Transactions on Speech and Audio Processing (3), 406–412 [51] Kantz, H and T Schreiber (2004) Nonlinear Time Series Analysis Cambridge University Press 110 [52] Kaulakys, B and T Meˇskauskas (1998, Dec) Modeling 1/f noise Phys Rev E 58, 7013–7019 [53] Kelebekler, E and M Inal (2006) White and Color Noise Cancellation of Speech Signal by Adaptive Filtering and Soft Computing Algorithms, pp 970–975 Berlin, Heidelberg: Springer Berlin Heidelberg [54] Kennel, M B., R Brown, and H D I Abarbanel (1992a, Mar) Determining embedding dimension for phase-space reconstruction using a geometrical construction Phys Rev A 45, 3403–3411 [55] Kennel, M B., R Brown, and H D I Abarbanel (1992b, Mar) Determining embedding dimension for phase-space reconstruction using a geometrical construction Phys Rev A 45, 3403–3411 [56] Kleijn, W B and K K Paliwal (Eds.) (1995) Speech Coding and Synthesis New York, NY, USA: Elsevier Science Inc [57] Kolmogorov, A (1959) On entropy per unit time as a metric invariant of automorphisms Dokl Akad Nauk SSSR 124, 754–755 [58] Kristjansson, T., S Deligne, and P Olsen (2005) Voicing features for robust speech detection In Ninth European Conference on Speech Communication and Technology [59] Kumar, A and S K Mullick (1996) Nonlinear dynamical analysis of speech The Journal of the Acoustical Society of America 100 (1), 615–629 [60] Lamel, L., L Rabiner, A Rosenberg, and J Wilpon (1981, Aug) An improved endpoint detector for isolated word recognition IEEE Transactions on Acoustics, Speech, and Signal Processing 29 (4), 777–785 [61] Lartillot, O and P Toiviainen (2007, September 23-27) Mir in matlab (ii): A toolbox for musical feature extraction from audio In Proceedings of the 8th International Conference on Music Information Retrieval, Vienna, Austria, pp 127–130 [62] Lee, H (2001, Jan) Statistical confidence measures and their applications In Proc ICSP, pp 1021–1028 111 [63] Lee, K Y., B.-G Lee, and S Ann (1997, Oct) Adaptive filtering for speech enhancement in colored noise IEEE Signal Processing Letters (10), 277–279 [64] Letellier, C (2006, Jun) Estimating the shannon entropy: Recurrence plots versus symbolic dynamics Phys Rev Lett 96, 254102 [65] Letellier, C., H Rabarimanantsoa, L Achour, A Cuvelier, and J.-F Muir (2008) Recurrence plots for dynamical analysis of non-invasive mechanical ventilation Philosophical Transactions of the Royal Society of London A: Mathematical, Physical and Engineering Sciences 366 (1865), 621–634 [66] Li, K., M N S Swamy, and M O Ahmad (2005, Sept) An improved voice activity detection using higher order statistics IEEE Transactions on Speech and Audio Processing 13 (5), 965–974 [67] Lorenz, E N (1963) Deterministic nonperiodic flow Journal of the atmospheric sciences 20 (2), 130–141 [68] MAGANTI, H K., P MOTLICEK, and D GATICA-PEREZ Unsupervised speech/non-speech detection for automatic speech recognition in meeting rooms martigny, switzerland: Idiap, 2006 [69] Mak, M.-W and H.-B Yu (2014) A study of voice activity detection techniques for {NIST} speaker recognition evaluations Computer Speech & Language 28 (1), 295 – 313 [70] Maragos, P., J F Kaiser, and T F Quatieri (1993, Oct) Energy separation in signal modulations with application to speech analysis IEEE Transactions on Signal Processing 41 (10), 3024–3051 [71] Maragos, P and A Potamianos (1999) Fractal dimensions of speech sounds: Computation and application to automatic speech recognition The Journal of the Acoustical Society of America 105 (3), 1925–1932 [72] Markowitz, J A (2000) Using speech recognition Markowitz, J Consultants [73] Martinez, W and A Martinez (2002) Computational Statistics Handbook with Matlab Chapman & Hall/CRC 112 [74] Marwan, N and J Kurths (2005) Line structures in recurrence plots Physics Letters A 336 (4–5), 349 – 357 [75] Marwan, N., M C Romano, M Thiel, and J Kurths (2007) Recurrence plots for the analysis of complex systems Physics Reports 438 (5–6), 237 – 329 [76] Marwan, N., N Wessel, U Meyerfeldt, A Schirdewan, and J Kurths (2002a, Aug) Recurrence-plot-based measures of complexity and their application to heart-rate-variability data Phys Rev E 66, 026702 [77] Marwan, N., N Wessel, U Meyerfeldt, A Schirdewan, and J Kurths (2002b, Aug) Recurrence-plot-based measures of complexity and their application to heart-rate-variability data Phys Rev E 66, 026702 [78] MICA Speech communication department [79] Miller, K D and T W Troyer (2002a) Neural noise can explain expansive, power-law nonlinearities in neural response functions Journal of Neurophysiology 87 (2), 653–659 [80] Miller, K D and T W Troyer (2002b) Neural noise can explain expansive, power-law nonlinearities in neural response functions Journal of Neurophysiology 87 (2), 653–659 [81] Mitchell, T M (1997) Machine Learning (1 ed.) New York, NY, USA: McGraw-Hill, Inc [82] Moattar, M H and M M Homayounpour (2011) A weighted feature voting approach for robust and real-time voice activity detection ETRI Journal 33 (1), 99–109 [83] Moore, M., S Mitra, and R Bernstein (1997) A generalization of the teager algorithm In Proc 1997 IEEE Workshop on Nonlinear Signal Porcessing, (Ann Arbor, Michigan), September [84] Mukherjee, S., S K Palit, S Banerjee, M Ariffin, L Rondoni, and D Bhattacharya (2015a) Can complexity decrease in congestive heart failure? Physica A: Statistical Mechanics and its Applications 439, 93 – 102 113 [85] Mukherjee, S., S K Palit, S Banerjee, M Ariffin, L Rondoni, and D Bhattacharya (2015b) Can complexity decrease in congestive heart failure? Physica A: Statistical Mechanics and its Applications 439, 93 – 102 [86] Muroi, T., R Takashima, T Takiguchi, and Y Ariki (2009, Jan) Gradientbased acoustic features for speech recognition In Intelligent Signal Processing and Communication Systems, 2009 ISPACS 2009 International Symposium on, pp 445–448 [87] Naik, G R., D K Kumar, V P Singh, and M Palaniswami (2006) Hand gestures for hci using ica of emg In Proceedings of the HCSNet workshop on Use of vision in human-computer interaction-Volume 56, pp 67–72 Australian Computer Society, Inc [88] Naylor, P A., A Kounoudes, J Gudnason, and M Brookes (2007, Jan) Estimation of glottal closure instants in voiced speech using the dypsa algorithm IEEE Transactions on Audio, Speech, and Language Processing 15 (1), 34–43 [89] Ney, H (1981, Apr) An optimization algorithm for determining the endpoints of isolated utterances In Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP ’81., Volume 6, pp 720–723 [90] Noll, A M (1967) Cepstrum pitch determination The journal of the acoustical society of America 41 (2), 293–309 [91] Ogorzalek, M J (2002) Using nonlinear dynamics and chaos to solve signal processing tasks In Chaos In Circuits And Systems, pp 487–507 [92] Oppenheim, A V (1970, Aug) Speech spectrograms using the fast fourier transform IEEE Spectrum (8), 57–62 [93] Packard, N H., J P Crutchfield, J D Farmer, and R S Shaw (1980, Sep) Geometry from a time series Phys Rev Lett 45, 712–716 [94] Palit, S K., S Mukherjee, and D Bhattacharya (2012) New types of nonlinear auto-correlations of bivariate data and their applications Applied Mathematics and Computation 218 (17), 8951 – 8967 114 [95] Palit, S K., S Mukherjee, and D Bhattacharya (2013) A high dimensional delay selection for the reconstruction of proper phase space with cross autocorrelation Neurocomputing 113, 49 – 57 [96] Park, H.-M and R M Stern (2009, January) Spatial separation of speech signals using amplitude estimation based on interaural comparisons of zerocrossings Speech Commun 51 (1), 15–25 [97] Payette, J (1994) Advanced human-computer interface and voice processing applications in space In Proceedings of the workshop on Human Language Technology, pp 416–420 Association for Computational Linguistics [98] Pearce, D., H g¨ unter Hirsch, and E E D Gmbh (2000) The aurora experimental framework for the performance evaluation of speech recognition systems under noisy conditions In in ISCA ITRW ASR2000, pp 29–32 [99] Pecora, L M and T L Carroll (1990, Feb) Synchronization in chaotic systems Phys Rev Lett 64, 821–824 [100] Pecora, L M and T L Carroll (1991, Aug) Driving systems with chaotic signals Phys Rev A 44, 2374–2383 [101] Petry, A and D A C Barone (2002) Speaker identification using nonlinear dynamical features Chaos, Solitons & Fractals 13 (2), 221 – 231 [102] Pincus, S M (1991) Approximate entropy as a measure of system complexity Proceedings of the National Academy of Sciences 88 (6), 2297–2301 [103] Potamianos, A.; Maragos, P (2001, 3) Time-frequency distributions for automatic speech recognition IEEE Transactions on Speech and Audio Processing 9, 196–200 [104] Prasad, R V., A Sangwan, H Jamadagni, M Chiranth, R Sah, and V Gaurav (2002) Comparison of voice activity detection algorithms for voip In Computers and Communications, 2002 Proceedings ISCC 2002 Seventh International Symposium on, pp 530–535 IEEE [105] Rabarimanantsoa, H., L Achour, C Letellier, A Cuvelier, and J.-F Muir (2007) Recurrence plots and shannon entropy for a dynamical analysis of asynchronisms in noninvasive mechanical ventilation Chaos 17 (1), 013115 115 [106] Rabiner, L and B.-H Juang (1993) Fundamentals of Speech Recognition Upper Saddle River, NJ, USA: Prentice-Hall, Inc [107] Rabiner, L and R Schafer (2011) Digital speech processing The Froehlich/Kent Encyclopedia of Telecommunications 6, 237–258 [108] Rabiner, L R (1989, Feb) A tutorial on hidden markov models and selected applications in speech recognition Proceedings of the IEEE 77 (2), 257–286 [109] Radmard, M., M Hadavi, and M Nayebi (2011) A new method of voiced/unvoiced classification based on clustering Journal of Signal and Information Processing 2, 336–347 [110] Ramirez, J., J M Górriz, and J C Segura (2007) Voice activity detection fundamentals and speech recognition system robustness INTECH Open Access Publisher [111] Ramirez, J., J C Segura, C Benitez, A de la Torre, and A Rubio (2004) Efficient voice activity detection algorithms using long-term speech information Speech Communication 42 (34), 271 – 287 [112] Ramirez, J., J C Segura, C Benitez, L Garcia, and A Rubio (2005, Oct) Statistical voice activity detection using a multiple observation likelihood ratio test IEEE Signal Processing Letters 12 (10), 689–692 [113] Recognition, S Speech recognition [114] Renevey, P and A Drygajlo (2001) Entropy based voice activity detection in very noisy conditions In in Eurospeech, pp 1887–1890 [115] Richman, J S and J R Moorman (2000) Physiological time-series analysis using approximate entropy and sample entropy American Journal of Physiology - Heart and Circulatory Physiology 278 (6), H2039–H2049 [116] Rodríguez-Bermúdez, G and P J García-Laencina (2015) Analysis of eeg signals using nonlinear dynamics and chaos: a review Applied Mathematics & Information Sciences (5), 2309 116 [117] Romano, M C., M Thiel, J Kurths, and C Grebogi (2007, Sep) Estimation of the direction of the coupling by conditional probabilities of recurrence Phys Rev E 76, 036211 [118] Rouat, J., Y C Liu, and D Morissette (1997) A pitch determination and voiced/unvoiced decision algorithm for noisy speech Speech Communication 21 (3), 191 – 207 [119] Sakhnov, K., E Verteletskaya, and B Simak (2009) Dynamical energybased speech/silence detector for speech enhancement applications In Proceedings of the World Congress on Engineering, Volume 1, pp Citeseer [120] Savoji, M (1989a) A robust algorithm for accurate endpointing of speech signals Speech Communication (1), 45 – 60 [121] Savoji, M H (1989b, March) A robust algorithm for accurate endpointing of speech signals Speech Commun (1), 45–60 [122] Shannon, C E (1948) A Mathematical Theory of Communication The Bell System Technical Journal 27 (3), 379–423 [123] Shannon, C E (2001) A mathematical theory of communication ACM SIGMOBILE Mobile Computing and Communications Review (1), 3–55 [124] Shen, J.-l., J.-w Hung, and L.-s Lee (1998) Robust entropy-based endpoint detection for speech recognition in noisy environments In ICSLP, Volume 98, pp 232–235 [125] Sinai, Y (1959) On the notion of entropy for a dynamic system Dokl Akad Nauk SSSR 124 (4), 768–771 [126] Sohn, J., N S Kim, and W Sung (1999, Jan) A statistical model-based voice activity detection IEEE Signal Processing Letters (1), 1–3 [127] Sphinx, C Cmu sphinx [128] Stegmann, J and G Schroder (1997) Robust voice-activity detection based on the wavelet transform In Speech Coding For Telecommunications Proceeding, 1997, 1997 IEEE Workshop on, pp 99–100 IEEE [129] Takens, F (1981a) Detecting strange attractors in turbulence, pp 366–381 Berlin, Heidelberg: Springer Berlin Heidelberg 117 [130] Takens, F (1981b) Detecting strange attractors in turbulence, pp 366– 381 Berlin, Heidelberg: Springer Berlin Heidelberg [131] Teager, H M and S M Teager (1990) Evidence for Nonlinear Sound Production Mechanisms in the Vocal Tract, pp 241–261 Dordrecht: Springer Netherlands [132] Thiel, M., M C Romano, P L Read, and J Kurths (2004) Estimation of dynamical invariants without embedding by recurrence plots Chaos 14 (2), 234–243 [133] Tucker, R (1992, Aug) Voice activity detection using a periodicity measure IEE Proceedings I - Communications, Speech and Vision 139 (4), 377– 380 [134] Velichko, V and N Zagoruyko (1970) Automatic recognition of 200 words International Journal of Man-Machine Studies (3), 223 – 234 [135] VietVoice Vietvoice [136] Voss, R F and J Clarke (1976, Jan) Flicker ( f1 ) noise: Equilibrium temperature and resistance fluctuations Phys Rev B 13, 556–573 [137] VSpeech Vspeech [138] Webber, J., L Charles, and N Marwan (2015) Recurrence Quantification Analysis: Theory and Best Practices Springer International Publishing [139] Ye, J., R J Povinelli, and M T Johnson (2002, Oct) Phoneme classification using naive bayes classifier in reconstructed phase space In Digital Signal Processing Workshop, 2002 and the 2nd Signal Processing Education Workshop Proceedings of 2002 IEEE 10th, pp 37–40 [140] Yegnanarayana, B (1996, 02) On timing in time-frequency analysis of speech signals Sadhana 21, 5–20 [141] Ying, G S., C D Mitchell, and L H Jamieson (1993a, April) Endpoint detection of isolated utterances based on a modified teager energy measurement In Acoustics, Speech, and Signal Processing, 1993 ICASSP-93., 1993 IEEE International Conference on, Volume 2, pp 732–735 vol.2 118 [142] Ying, G S., C D Mitchell, and L H Jamieson (1993b, April) Endpoint detection of isolated utterances based on a modified teager energy measurement In Acoustics, Speech, and Signal Processing, 1993 ICASSP-93., 1993 IEEE International Conference on, Volume 2, pp 732–735 vol.2 [143] Young, S J and S Young (1993) The HTK hidden Markov model toolkit: Design and philosophy University of Cambridge, Department of Engineering ... hiệu tiếng nói Lý coi hệ thống phát tiếng nói hệ thống động học, từ đó, phân tích đánh giá dùng công cụ phân tích phi tuyến tính cho thấy có khả quan cao Khi hiểu đặc trưng phi tuyến tín hiệu tiếng. .. loạn âm tiếng nói [71] ứng dụng đặc trưng tiếng nói phi tuyến cho việc nhận dạng tiếng nói [22, 71] Hình 1.5: Tái tạo không gian pha tín hiệu tiếng nói 19 1.8 Nhận dạng tiếng nói tuyến tính phi tuyến.. . hiệu giọng nói • Các bước xử lý tín hiệu phát phần tín hiệu có tiếng nói phần tiếng nói Đề xuất phương pháp phân tích VAD dựa đường bao vi phân trung bình tín hiệu tiếng nói đưa Việc phân tích thực

Ngày đăng: 12/04/2017, 17:54

Xem thêm