Hệ thống nhận dạng tiếng nói tự động(automatic Speech Recognition ASR) chuyển đổi tiếng nói dạng âm thành thành văn bản text(SpeechToText) là bài toán khó được phát triển từ những thập niên 50 của thế kỷ trước, qua thời gian có nhiều phương pháp đã được áp dụng để cải thiện kết quả nhận dạng, đến thời điểm hiện tại công nghệ áp dụng giải quyết bài toán nhận dạng được sử dụng phổ biến là sử dụng phương pháp rút trích đặt trưng MFCC và mô hình HMM
Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng MỤC LỤC MỤC LỤC 1 DANH MỤC HÌNH 3 DANH MỤC BẢNG BIỂU 5 CÁC TỪ VIẾT TẮT 6 CHƯƠNG 1 MỞ ĐẦU 8 1.1 GIỚI THIỆU 9 1.2 TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGOÀI NƯỚC 9 1.2.1 Tình hình ngoài nước: 9 1.2.2 Tình hình trong nước: 10 1.2.3 Khảo sát hiện trạng 11 1.3 MỤC TIÊU CỦA ĐỀ TÀI 15 1.4 PHẠM VI CỦA ĐỀ TÀI 15 1.5 ĐIỂM MỚI NỔI BẬC CỦA ĐỀ TÀI 15 1.6 PHÂN TÍCH ƯU NHƯỢC ĐIỂM CỦA HÌNH THỨC GIAO TIẾP BẰNG GIỌNG NÓI 16 1.7 NỘI DUNG ĐỀ TÀI : 16 CHƯƠNG 2 NGHIÊN CỨU LÝ THUYẾT NHẬN DẠNG TIẾNG NÓI 18 2.1 NHẬN DẠNG TIẾNG NÓI 18 2.1.1 Bài toán nhận dạng tiếng nói 18 2.1.2 Bài toán nhận dạng tiếng nói tiếng việt trên môi trường mạng Viễn Thông 22 2.2 RÚT TRÍCH ĐẶC TRƯNG TIẾNG NÓI 23 2.2.1 Giới Thiệu 23 2.2.2 Nghiên cứu cách thức rút trích đặc trưng tiếng nói 25 2.3 MÔ HÌNH MARKOV ẨN 33 2.3.1 Chuỗi Markov 33 2.3.2 Mô hình Markov ẩn HMM- (HIDDEN MARKOV MODELS ) 33 Giới thiệu 33 Ba bài toán của mô hình HMM 34 Bài toán 1: Tính toán khả suất (computing Likelihood): 34 Bài toán 2: Tìm chuỗi trạng thái ẩn ( Decoding) : 37 Bài toán 3: Huấn luyện ( learning) 40 2.4 KỸ THUẬT THÍCH ỨNG TIẾNG NÓI 42 2.4.1 Phương pháp thích ứng mô hình 43 Phương pháp MAP (Maximum a Posteriori): 43 Phương pháp MLLR (Maximum Likelihood Linear Regression) : 44 2.4.2 Thuật ngữ liên quan đến thích ứng mô hình 44 2.4.3 Kỹ thuật thích ứng tiếng nói MLLR (maximum likelihood linear regression) 46 Cơ bản về MLLR 46 Toán học bổ trợ cho phương pháp MLLR – Hồi qui tuyến tính 46 Phép biến đổi vector trung bình trong mô hình GMM 47 2.5 MÃ HÓA TIẾNG NÓI TRÊN ĐƯỜNG TRUYỀN MẠNG VIỄN THÔNG 48 CHƯƠNG 3 BỘ CÔNG CỤ NHẬN DẠNG TIẾNG NÓI HTK 51 3.1 GIỚI THIỆU 52 3.2 KIẾN TRÚC HTK 53 3.3 PHÂN TÍCH CÔNG CỤ QUAN TRỌNG HTK 56 3.3.1 Xử lý rút trích đặc trưng âm thanh tiếng nói 56 1 Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng 3.3.2 Ước lượng tham số cho mô hình ngữ âm 57 3.3.3 Mô hình ngôn ngữ trong HTK 57 3.4 HUẤN LUYỆN HTK 59 CHƯƠNG 4 XÂY DỰNG TỔNG ĐÀI NHẬN DẠNG YÊU CẦU BẰNG GIỌNG NÓI 60 4.1 MÔ TẢ BÀI TOÁN 61 4.2 CÁC THÀNH PHẦN HỆ THỐNG NHẬN DẠNG YÊU CẦU BẰNG GIỌNG NÓI 61 4.2.1 Sơ đồ Khối tổng quát hoạt động của tổng đài 62 Khối giao tiếp PSTN : 62 Khối giao tiếp VOIP : 63 Khối Tương tác Thoại IVR ( Interactive voice response ) : 63 Khối Nhận dạng tiếng nói ( Speech – To – Text ) : 64 Khối truy vấn thông tin kết quả : 64 4.3 NGHIÊN CỨU XÂY DỰNG CẤU HÌNH TỔNG ĐÀI GOLDEN SONG 64 4.3.1 Giới thiệu tổng đài Asterisk 64 4.3.2 Kiến trúc tổ chức Asterisk 66 4.3.3 Xây dựng hệ thống tương tác thoại IVR 69 4.4 THIẾT LẬP DIALPLAN CHO ỨNG DỤNG 71 4.5 NGHIÊN CỨU THIẾT KẾ MODULE GIAO TIẾP GIỮA TỔNG ĐÀI VỚI MẠNG PSTN, DI ĐỘNG, WIFI 72 4.5.1 Cấu hình với luồng truyền dẫn số E1 72 4.5.2 Cấu hình giao tiếp với hệ thống IPCC của Viễn thông Tp. Hồ Chí Minh 75 Trình bày cấu hình phía IPCC 75 Cấu hình phía tổng đài nhận dạng tiếng nói 77 4.6 HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT 78 4.6.1 Nhiệm của các khối chức năng trong hệ thống nhận dạng: 78 4.6.2 Chi tiết cấu hình và mã nguồn các phân hệ trong hệ thống 80 Mô hình ngữ âm (theo phụ lục 1) 80 Mô hình ngôn ngữ (theo phu lục 4) 80 Khối hệ thống IVR tiếp nhận, xử lý và trả kết quả (theo phu lục 2) 80 Khối nhận dạng tiếng nói (chi tiết theo phụ lục 3) 80 CHƯƠNG 5 ĐÁNH GIÁ KẾT QUẢ CỦA ĐỀ TÀI 81 5.1 XÂY DỰNG CƠ SỞ DỮ LIỆU CHỮ SỐ TIẾNG NÓI TIẾNG VIỆT 82 5.2 MÔ TẢ DỮ LIỆU 83 5.3 KẾT QUẢ NHẬN DẠNG OFFLINE 84 5.4 KẾT QUẢ NHẬN DẠNG ONLINE 85 5.5 ĐÁNH GIÁ KẾT QUẢ 86 5.6 KẾT QUẢ CỦA ĐỀ TÀI 87 5.7 ĐÁNH GIÁ MỘT SỐ CÔNG CỤ SỬ DỤNG TRONG ĐỀ TÀI 87 CHƯƠNG 6 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 89 6.1 KẾT LUẬN 89 6.2 HƯỚNG PHÁT TRIỂN 90 TÀI LIỆU THAM KHẢO 92 PHỤ LỤC 1 – HUẤN LUYỆN HTK 94 PHỤ LỤC 2 – CẤU HÌNH DIALPLAN HỆ THỐNG NHẬN DẠNG 102 PHỤ LỤC 3 – MODULE NHẬN DẠNG TIẾNG NÓI 104 PHỤ LỤC 4 – MÔ HÌNH NGÔN NGỮ GRAMMAR 115 2 Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng DANH MỤC HÌNH Hình 2.1: Các lĩnh vực về nhận dạng tiếng nói 19 Hình 2.2 : Phân loại mô hình Markov ẩn 21 Hình 2.3: Khối chức năng của hệ thống nhận dạng tiếng nói 21 Hình 2.4: Nhận dạng tiếng nói trên mạng viễn thông 23 Hình 2.5: Tổng đài nhận dạng tiếng nói voice server 23 Hinh 2.6: Ví dụ về tính tách biệt của 2 đặc trưng khác nhau 25 Hình 2.7: Các bước rút trích đặc trưng MFCC 26 Hình 2.8: Tín hiệu wave trước và sau khi lọc thông cao 26 Hình 2.9: Cơ chế chia frame 27 Hình 2.10: Tín hiệu trước và sau khi nhân với cửa sổ Hamming 28 Hình 2.11: Tương quan giữa tọa độ Descartes và tọa độ cực 29 Hình 2.12: Tương quan giữa tần số mel và tần số tuyến tính 23 Hình 2.13: Mel filter banks trên miền mel và miền tần số 31 Hình 2.14: Mel filter banks trên miền tần số tuyến tính 31 Hình 2.15 : Minh họa thuật toán forward [3] 36 Hình 2.16: Minh họa thuật toán backward [3] 37 Hình 2.17: Mô hình thích ứng tiếng nói [32] 42 3 Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng Hình 2.18: Mô hình thích ứng Incremental 45 Hình 2.19: Mô hình thích ứng Batch 45 Hình 2.20: Thích ứng trên vector trung bình [32] 46 Hình 2.21: Nhận dạng tiếng nói với hướng tiếp cận NSR 49 Hình 2.22 : Nhận dạng tiếng nói với hướng tiếp cận DSR 49 Hình 3.1: Nhận dạng tiếng nói với công cụ HTK 52 Hình 3.2: Kiến trúc bộ công cụ HTK 53 Hình 3.3 : Các công đoạn xây dựng bộ nhận dạng tiếng nói HTK 54 Hình 3.4: xử lý mã hóa tiếng nói 57 Hình 3.5: mô tả các bước huấn luyện với công cụ HTK 59 Hình 4.1: Sơ đồ tổng quát tổng đài nhận dạng yêu cầu bằng giọng nói 61 Hình 4.2: Sơ đồ khối hệ thống nhận dạng yêu cầu bằng giọng nói 62 Hình 4.3: Thiết bị trung kế số E1 giao tiếp với mạng PSTN 63 Hình 4.4 : Thiết bị đầu cuối IP Phone 63 Hình 4.5: Sơ đồ tổng quát tổng đài Asterisk 65 Hình 4.6: Kiến trúc Asterisk 67 Hình 4.7: Hệ Thống IVR 69 Hình 4.8: Kế hoạch dialplan cho hệ thống 71 Hình 4.9: Kết nối trung kế E1 đến nhà cung cấp 72 4 Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng Hình 4.10: Sơ đồ kết nối giao tiếp giữa IPCC và tổng đài nhận dạng tiếng nói. .75 Hình 4.11: Minh họa các khối chính trong hệ thống nhận dạng tiếng nói 78 DANH MỤC BẢNG BIỂU Bảng 2.1 : Các chuẩn mã hóa tín hiệu âm thanh 50 Bảng 5.1 Tổ chức dữ liệu nhận dạng 84 Bảng 5.2 Bảng chi tiết kết quả test nhận dạng 86 5 Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng CÁC TỪ VIẾT TẮT Ký hiệu Thuật ngữ Tạm dịch - PSTN Public switched telephone network Mạng chuyển mạch công cộng VOIP Voice over Internet Protocol Thoại trên giao thức Internet ASR Automatic Speaker Recognition Nhận dạng người nói tự động ANN Artificial Neural Network Mạng Nơ ron nhân tạo - Speech To Text Chuyển thoại sang văn bản HMM Hidden Markov Mode Mô hình Markov ẩn PBX Private branch exchange Tổng đài nội bộ - Asterisk Tổng đài chuyển mạch mềm - H.323 Giao thức truyền thoại IAX Inter-Asterisk eXchange Giao thức thoại của Asterisk TDM Time-division multiplexing Ghép kênh phân chia thời gian T1, E1 - Trung kế số ISDN Integrated Services Digital NetworkMạng đa dịch vụ Dialplan - Kế hoạch đánh số điện thoại 6 Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng - Client-softphone Phần mềm Điện thoại GMM Gaussian Mixture Model Mô hình hợp Gauss IVR Interactive voice response tương tác thoại - Identification Định danh SIP Session Initiation Protocol Giao thức VOIP FXO Foreign Exchange Office Đầu cuối thoại văn phòng MFCC Mel-Frequency Cepstral - Coefficients DTMF Dual-tone multi-frequency Tín hiệu đa tần - 30B+2D 30 kênh thoại, 2 báo hiệu - Speaker Người nói PCM Pulse-code modulation Điều chế xung mã HTK Hidden Markov Model Toolkit Công cụ nhận dạng tiếng nói PDF Probability Density Function Hàm phân bố mật độ xác suất SGMM Subspace Gaussians Mixture Model SI Speaker Independent Độc lập người nói SD Speaker Dependent Phục thuộc người nói WCR Word Correct Rate Tỉ lệ chính xác từ 7 Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng CHƯƠNG 1 MỞ ĐẦU 8 Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng 1.1 GIỚI THIỆU Hệ thống nhận dạng tiếng nói tự động(automatic Speech Recognition - ASR) chuyển đổi tiếng nói dạng âm thành thành văn bản text(Speech-To-Text) là bài toán khó được phát triển từ những thập niên 50 của thế kỷ trước, qua thời gian có nhiều phương pháp đã được áp dụng để cải thiện kết quả nhận dạng, đến thời điểm hiện tại công nghệ áp dụng giải quyết bài toán nhận dạng được sử dụng phổ biến là sử dụng phương pháp rút trích đặt trưng MFCC và mô hình HMM[10]. Trong đề tài nghiên cứu này nhóm tác giả tập trung vào nghiên cứu công nghệ nhận dạng tiếng nói, bao gồm các lý thuyết liên quan như phương thức rút trích đặc trưng, cách xây dựng mô hình ngữ âm và mô hình ngôn ngữ từ đó ứng dụng vào việc xây dựng hệ thống tổng đài nhận dạng chữ số tiếng nói tiếng việt trên môi trường mạng viễn thông (nhận diện yêu cầu của khách hàng bằng giọng nói thay vì nhấn phím thông thường). Thử nghiệm trên hệ thống tổng đài nghe nhạc Golden Song (Nghe nhạc qua tổng đài) bằng hình thức yêu cầu những bản nhạc cần nghe bằng giọng nói, bước đầu sẽ nhận dạng yêu cầu bằng chữ số tiếng nói tiếng việt. 1.2 TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGOÀI NƯỚC 1.2.1 Tình hình ngoài nước: Hình 1.1 : Sơ đồ nhận dạng tiếng nói cơ bản trên mạng viễn thông Trãi qua hơn 70 năm công nghệ nhận dạng luôn được các nhà nghiên cứu phát triển, cải thiến chất lượng bởi đây là hình thức giao tiếp thân thuộc hàng ngày của con người, không phải là để thay thế hoàn toàn các hình thức giao tiếp khác mà là một hình thức bổ trợ gần gủi quen thuộc hơn đối với con người. vào những thập niên 50 của thế kỷ trước công nghệ nhận dạng đã phát triển triển nhưng chủ yếu tập trung vào ngữ âm, do kỹ thuật máy tính và xử lý tín hiệu số 9 Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng còn hạn chế nên chỉ tập trung khai thác đặc trưng phổ cộng hưởng của các nguyên âm tiêu biểu như hệ thống nhận dạng ký số rời rạc của Bell-lab(1952) [12,p.8] , Trong thập niên 60 phương pháp nhận dạng tiếng nói dựa trên qui hoạch động theo thời gian(Dynamic Time Wraping-DTW)[12,p1] là ý tưởng của tác giả người nga vintsyuk, nhưng đến năm 1980 mới được thế giới biết đến. Trong những năm 70 phương pháp mã hóa dự báo tuyến tính(Linear Predictive coding - LPC) của Bell-lab đây là phương pháp làm tiền đề cho việc áp dụng các tham số phổ LPC vào hệ thống nhận dạng tiếng nói tự động. Trong những thập niên 80, 90 phát triển chính được kể đến là mô hình HMM(Hidden Markov Model) và mô hình ngôn ngữ (language model - LM), ứng dụng sphinx cũng được phát triển trong giai đoạn này, từ đó đến nay có nhiều thay đổi cải tiến nhưng cũng dựa vào nền tảng chính trong giai đoạn này. HMM được phát triển và ứng dụng tại viện nghiên cứu quốc phòng Mỹ và IBM[12,p3], vài năm sau đó được giới thiệu rộng rãi ra thế giới. Ngày nay việc ứng dụng tiếng nói đang ngày càng phát triển, có nhiều ứng dụng đi vào thực tiễn như hệ thống trả lời thông tin tự động cho các chuyến bay (Air Travel Information Service – ATIS), Hệ thống phát lại các bản tin, Hệ thống Siri trên Iphone, google search… Tuy nhiên, Ở Việt Nam chưa có hệ thống thương mại áp dụng vào thực tiễn. Một số sản phẩm của nước ngoài về nhận dạng tiếng nói Tiếng Việt như : Nuance (Dragon Dictation và Dragon Search), google search các sản phẩm này được nhận dạng trên hệ thiết bị Smartphone, chưa có sản phẩm nhận dạng tiếng việt trên mạng viễn thông. 1.2.2 Tình hình trong nước: Tại Việt Nam, có 2 nhóm nghiên cứu chính về bài toán nhận dạng tiếng nói liên tục với bộ từ vựng lớn (Large vocabulary Continuous Speech Recognition -LVCSR). Nhóm đầu tiên thuộc Viện Công nghệ Thông tin do 10 [...]... quả nhận dạng trên tổng đài, đánh giá kết quả nhận dạng Chương 6 Kết luận và Hướng phát triển 17 Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng CHƯƠNG 2 NGHIÊN CỨU LÝ THUYẾT NHẬN DẠNG TIẾNG NÓI 2.1 NHẬN DẠNG TIẾNG NÓI 2.1.1 Bài toán nhận dạng tiếng nói Bài toán nhận dạng tiếng nói bao gồm: nhận dạng lời nói (speech recognition), nhận dạng người nói (speaker recognition), nhận dạng. .. ngữ nói (language recognition), nhận dạng giới tính (Sex recognition)… Trong bài toán nhận dạng lời nói lại bao gồm 2 loại là nhận dạng độc lập người nói (Speaker 18 Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng Independent) và nhận dạng phụ thuộc người nói (Speaker Dependent) Trong đề tài này thực hiện nhận dạng độc lập người nói Tiếng nói Xử lý tiếng nói Miền Thời gian … Tổng hợp tiếng. .. mềm tìm kiếm sử dụng công nghệ nhận dạng tiếng nói cho một tập đoàn Viễn thông (báo Đất Việt, 12/04/2012) Do đó việc nghiên cứu công nghệ nhận dạng tiếng nói để áp dụng vào các dịch vụ của VNPT là điều cấp thiết, mở ra hướng phát triển công nghệ nhận dạng tiếng nói vào thực tiễn tại VNPT TPHCM cũng như cho toàn VNPT Một số sản phẩm trong nước về nhận dạng tiếng nói Tiếng Việt có thể ứng dụng thực tế như:... Tổng đài nhận dạng tiếng nói độc lập người nói, tách biệt từ (nhận dạng từ đơn), với tập từ vựng chữ số tiếng nói Tiếng việt Ứng dụng thử nghiệm xây dựng tổng đài nghe nhạc truy vấn thông tin bằng giọng nói 1.5 ĐIỂM MỚI NỔI BẬC CỦA ĐỀ TÀI Hiện nay trên thị trường chưa có sản phẩm nhận dạng tiếng nói tiếng việt trên mạng viễn thông 15 Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng Đề... mô hình markov ẩn, thích ứng 16 Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng tiếng nói, các loại codec trên mạng viễn thông, tập trung trình bày các khái niệm, thuật toán liên quan trong việc phát triển đề tài nhận dạng chữ số tiếng nói tiếng việt trên mạng viễn thông Chương 3 Tìm hiểu ứng dụng công nghệ HTK vào bài toán nhận dạng tiếng nói: tìm hiểu bộ công cụ huấn luyện HTK, thu... nói Miền Tần số Nhận dạng lời nói Nhận dạng độc lập người nói Nhận dạng Nhận dạng người nói Nhận dạng giới tính Nhận dạng ngôn ngữ Nhận dạng phụ thuộc người nói Hình 2.1: Các lĩnh vực về nhận dạng tiếng nói Hệ thống nhận dạng độc lập người nói là hệ thống cho phép nhận dạng được nhiều giọng nói khác nhau, nhiều cách phát âm khác nhau trên cùng một ngôn ngữ, do vậy hệ thống nhận dạng độc lập người nói. . .Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng PGS.Lương Chi Mai ứng đầu, với phương pháp ANN và công cụ CSLU [13] được sử dụng Nhóm thứ hai thuộc trường Đại học Khoa học Tự nhiên thành phố Hồ Chí Minh do PGS Vũ Hải Quân ứng đầu, với phương pháp HMM và công cụ HTK được sử dụng, các nghiên cứu của nhóm tập trung vào bài toán truy vấn thông tin tiếng Việt, nhận dạng tiếng nói, ... lớn dữ liệu huấn luyện để có thể nhận dạng được tiếng nói của nhiều người khác nhau Tổng quát nhất nhận dạng tiếng nói là quá trình chuyển đổi ngôn ngữ tiếng nói thành văn bản ( speech to text ) [9], nhận dạng tiếng nói ứng dụng rất nhiều trong cuộc sống như điều khiển giao tiếp với máy tính, quay số tự động, 19 Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng truy vấn hỏi đáp trực tiếp... Bài toán nhận dạng tiếng nói tiếng việt trên môi trường mạng Viễn Thông Đề tài nghiên cứu là giải quyết bài toán nhận dạng tiếng nói tiếng việt trên môi trường mạng viễn thông Tiếng nói từ đầu cuối điện thoại truyền đi trên mạng viễn thông đến tổng đài nhận dạng tiếng nói Voice Server, tại đây tiếng nói sẽ được nhận dạng và chuyển thành văn bản (Speech - To - Text) [7] Hình 2.4: Nhận dạng tiếng nói trên... đổi tiếng nói thành văn bản được thực hiện bởi bộ nhận dạng tiếng nói tự động ASR (Automatic Speech Recognition) Đề tài nghiên cứu xây dựng tổng đài nhận dạng chữ số tiếng nói tiếng việt trên môi trường mạng viễn thông (voice server), tiếng nói từ đầu cuối điện thoại sẽ được mã hóa và truyền đi trên môi trường mạng viễn thông, đến tổng đài nhận 22 Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và . mạch mềm - H.323 Giao thức truyền thoại IAX Inter-Asterisk eXchange Giao thức thoại của Asterisk TDM Time-division multiplexing Ghép kênh phân chia thời gian T1, E1 - Trung kế số ISDN Integrated