Audio and Speech Processing with MATLAB Audio and Speech Processing with MATLAB Automatic Speech Recognition ASR 8 1 Speech Recognition History Nhận dạng giọng nói đã có lịch sử lâu đời trong hơn 100[.]
Audio and Speech Processing with MATLAB Automatic Speech Recognition: ASR 8.1 Speech Recognition: History Nhận dạng giọng nói có lịch sử lâu đời 100 năm qua Tuy nhiên, gần ước mơ “nói chuyện với máy tính” trở thành thực Một điều đáng ý sớm nhận dạng giọng nói Radio Rex Khơng có nỗ lực nghiêm túc ASR 30 năm tiếp Bell Labs phát triển hệ thống nhận dạng chữ số riêng biệt Từ thời điểm đó, phương pháp nhận dạng giọng nói cải thiện với gia tăng vốn từ vựng độ vững Các hệ thống nhận dạng giọng nói sử dụng deep networks có hiệu suất nhận dạng gần với hiệu suất nhận dạng người 1922: Radio Rex: Đồ chơi thời kỳ đầu, trình biên dịch từ 1939: Voder Vocoder: Tổng hợp giọng nói, v.v Voder hệ thống tổng hợp giọng nói Homer Dudley phát triển Nó sử dụng địn bẩy điều khiển để điều khiển âm tạo điện tử nhằm tổng hợp giả tạo âm lời nói 1952: Bell Labs: Nhận dạng chữ số biệt lập từ người đối thoại 1957: 10 âm tiết người nói nhất: Olson Belar (phịng thí nghiệm RCA) Những năm 1950: Nhận dạng 10 nguyên âm độc lập với loa: (MIT) Những năm 1980: Worlds of Wonder’s Julie Doll Đồ chơi / búp bê nhận dạng giọng nói tổng hợp giọng nói Những năm 1990: Dragon Dictate Những năm 2008: Tìm kiếm giọng nói Google Những năm 2010: Siri, Cortana, Alexa, Trợ lý Google 8.1.1 Radio Rex Radio Rex đồ chơi nhận dạng giọng nói sản xuất Hoa Kỳ vào năm 1922 Elmwood Button Co Nó bao gồm chó làm nhựa xenlulo gắn với đế sắt Nó giữ bên cũi gỗ nam châm điện chống lại lực lò xo Dòng điện tới nam châm điện chạy qua đầu nối chạm lỏng lẻo Kết nối vật lý nhạy cảm với lượng âm khoảng 500 cps Đây xấp xỉ lượng người nói bình thường nói từ “Rex” gần với đồ chơi Do đó, nói "Rex", kết nối bị đứt, nam châm điện tắt lò xo đẩy chó khỏi cũi 8.1.2 Speech Recognition: History: 1952 Bell Labs Digits Bộ nhận dạng chữ số đơn lẻ phát triển Bell Labs hệ thống nhận dạng giọng nói thành cơng nhiều từ vựng Nó ước tính lượng cơng thức (cộng hưởng âm thanh) cho chữ số nói 0,1,2,3,4,5,6,7,8 Mặc dù thơ sơ, tích hợp số ý tưởng mạnh mẽ (không nhạy cảm với biên độ, thời gian thay đổi , vv ) Những điểm yếu hệ thống tìm thấy công nghệ (độ mạnh mạch linh kiện vật lý) Sơ đồ mạch hệ thống phát triển (lấy từ) thể Hình 8.1 8.1.3 Advances 1960s–Present Day Những tiến công nghệ sau chìa khóa việc phát triển trạng hệ thống nhận dạng giọng nói đạt hiệu suất nhận dạng gần người Các phương pháp liệt kê từ cũ đến + Phân tích quang phổ - FFT + Cepstrum + Dynamic time warp + Hidden Markov Models (HMM) + Language models + Integration with Deep Neural Network Methods 8.2 ASR-Problem Formulation Nhận dạng giọng nói tự động đặt số vấn đề kỹ thuật khó khăn Các vấn đề phân loại sau (theo mức độ khó dần): • Hệ thống nhận dạng từ đơn (ví dụ: nhận dạng chữ số Bell Labs) • Single speaker ASR • Hệ thống từ điển nhỏ • Các tác vụ nhận dạng từ điển lớn không bị giới hạn Một hệ thống ASR phải có khả tính đến điều sau: - Timing variation: + Thay đổi thời gian thay đổi người đối thoại + Thay đổi thời gian thay đổi người đối thoại môi trường khác + Formal/casual speech - Loud/quiet speech - Between speaker variability: + Trọng âm + Giới tính + Phong cách nhạc - Hiệu ứng theo ngữ cảnh - Cuối cùng, ngơn ngữ có tính đặc biệt cần tính đến 8.3 ASR Structune 8.3.1 Linguistic Categories for Speech Recognition Các vectơ đặc trưng trích xuất từ tín hiệu tiếng nói biết sử dụng làm đại diện cho phạm trù ngôn ngữ (hoặc chuỗi danh mục) tín hiệu 8.3.2 Basic Units for ASR 8.4 Phones Thoại đơn vị phụ từ ngữ âm đơn vị phổ biến cho hệ thống nhận dạng giọng nói tự động Điện thoại ưu tiên làm đơn vị cho ASR chung từ cụm từ 8.4.1 Phones versus Phonemes versus Graphemes Âm vị Điện thoại thường bị nhầm lẫn tài liệu nhận dạng giọng nói Âm vị cấu trúc từ phụ trừu tượng giúp phân biệt ý nghĩa ngôn ngữ Ngược lại, điện thoại ví dụ thực tế âm vị, tức cách thực phát âm( tức chúng nói phát âm theo cách xác định) 8.5 Phonetic Alphabets(Bảng chữ phiên âm) Bảng chữ phiên âm phổ biến Bảng chữ phiên âm quốc tế (IPA) • 75 phụ âm • 25 nguyên âm • Mỗi ngữ âm ký tự xác định dấu ngoặc vng, ví dụ: [p], [t] • (Most common phonetic alphabet reference) Tài liệu kham khảo bảng chữ phiên âm phổ biến • Bao gồm hầu hết ngơn ngữ • Biểu đồ đầy đủ bảng chữ IPA có sẵn miễn phí từ IPA https://www.internationalphoneticassociation.org/ An alternative TIMIT phoneset contains • 61 phones • English specific (Tiếng anh cụ thể) • Mỗi ngữ âm xác định ký hiệu ASCII (máy đọc được) • Được liên kết với tập liệu thật TIMIT ASR HÌNH 8.2: Các nguyên âm Bảng chữ phiên âm quốc tế (IPA) 8.6 Deterministic Sequence Recognition • Nhận dạng trình tự xác định dựa đối sánh mẫu dựa từ minh họa Hình 8.3 HÌNH 8.3: Đối sánh mẫu dựa từ xác định • Can be used for both isolated and connected word recognition(Có thể sử dụng cho hai cô lập nhận dạng từ kết nối) • Xác định: Được thay phương pháp thống kê • Phổ biến vào cuối năm 1970 đến năm 1980 8.7 Statistical sequence recognition Nhận dạng trình tự thống kê định nghĩa mặt toán học sau: W chuỗi từ (hoặc điện thoại): w1, w2 , , wN W ∗ chuỗi có nhiều khả X dãy đặc trưng âm học: x1, x2 , , xT • Θ tập tham số mơ hình Trình tự có nhiều khả W ∗ thu cách sử dụng Maximum A-Posteriori (MAP) Hệ thống Bayes 8.8 Language and Auditory Models Trong mơ hình âm học mơ tai người mơ hình ngơn ngữ mơ tả não người Mơ hình ngơn ngữ lưu trữ những tri thức (prior knowledge) từ ngữ, ngữ pháp, nói chung thơng tin liên quan đến knowledge ngơn ngữ Mơ hình ngơn ngữ cần update thường xun Mơ hình ngơn ngữ đơn giản phổ biến mơ hình n-gram Trong mơ hình này, xác suất từ thứ n xác định dựa (n-1) từ đứng trước P(Wn|Wn-1 W1) N thường cho hệ thống nhận dạng tiếng nói Mơ hình ngơn ngữ n-gram đơn giản có nhược điểm không mô tả phụ thuộc dài giới hạn n 8.9 SPEECH RECOGNITION DATASETS ( liệu nhận dạng tiếng nói) TIMIT CMU AN4 COMMON VOICE SWITCHBOARD HUB5’00 8.10 SUMMARY • Nhận dạng tiếng nói có 100 năm lịch sử • Các phần nhận dạng tiếng nói bao gồm thoại âm vị • Mơ hình ngơn ngữ sử dụng để phát triển hệ thống nhận dạng dựa theo ngữ cảnh • Nhiều liệu nhận dạng giọng nói có sẵn để hệ thống nhận dạng tiếng nói đánh giá .. .Automatic Speech Recognition: ASR 8.1 Speech Recognition: History Nhận dạng giọng nói có lịch sử lâu đời 100 năm qua Tuy... với đồ chơi Do đó, nói "Rex", kết nối bị đứt, nam châm điện tắt lị xo đẩy chó khỏi cũi 8.1.2 Speech Recognition: History: 1952 Bell Labs Digits Bộ nhận dạng chữ số đơn lẻ phát triển Bell Labs... đối thoại + Thay đổi thời gian thay đổi người đối thoại môi trường khác + Formal/casual speech - Loud/quiet speech - Between speaker variability: + Trọng âm + Giới tính + Phong cách nhạc - Hiệu