Ở trên ta đã đề cập tới 2 mô hình Hybrid thông dụng, thứ nhất sử dụng mạng nơ-ron như là bộ ước lượng xác suất hậu nghiệm cho mô hình HMM. Mô hình thứ hai là sử dụng mạng nơ-ron như là bộ lượng tử hóa vector cho HMM. Cùng với các kết quả nghiên cứu của các nhà khoa học đạt được khi xây dựng hệ thống nhận dạng tiếng nói tựđộng. Trong phần này ta sẽđưa ra một số kết quả nghiên cứu so sánh 2 mô hình hybrid cơ bản trên, được miêu tả trong [16].
Công cụ thực hiện các mô hình là Object Oriented Speech Toolkit (OOST)
được phát triển bởi L&H. OOST. Với cơ sở dữ liệu học thực hiện là các từ
tiếng Đức rời rạc được thu thập bởi ASCOM trong khuôn khổ dự án Himarnnet P6488.
Ba hệ thống nhận dạng được xây dựng như sau:
- Hệ thống cơ bản đầu tiên: sử dụng các mô hình HMM rời rạc ở mức phone, mô hình HMM là mô hình 3 trạng thái với 1 phone. Thuật toán sử
dụng cho việc huấn luyện và nhận dạng là thuật toán Viterbi. Đặc trưng tiếng nói sử dụng là hệ số CMS-LPC, thành phần đạo hàm thứ nhất (∆- CMS- Cepstrum) và thành phần đạo hàm thứ nhất và thứ hai của log-energy (∆- Energy, ∆-∆- Energy). Thực hiện việc phân nhóm sử dụng phương pháp lượng tử hóa vector dựa trên thuật toán k-means. Tập trên gồm 400 người phát âm 108 từ cân bằng về phone, tập kiểm tra gồm 136 người phát âm 53 từ. Kết quảđạt được với hệ thống trên thể hiện trong bảng 5.5 [16].
Chương V. Mô hình Hyrbid kết hợp mạng nơ-ron và mô hình chuỗi Markov ẩn Bảng 5.5. Kết quả nhận dạng với mô hinh HMM. Các đặc trưng [số phân nhóm] Tỷ lệ lỗi Số các tham số ∆-Energy [32], ∆-∆- Energy [32], CMS- Cepstrum [128],∆- CMS- Cepstrum [128] 7.16% 43456 ∆-Energy [32], ∆-∆- Energy [32], CMS- Cepstrum [256],∆- CMS- Cepstrum [258] 6.25% 78784
Hệ thống thứ hai: sử dụng mô hình Hybrid vơi việc sử dụng MLP như là bộ
gán nhãn, nguyên tắc thực hiện nhưđược miêu tảở trên. Kết quả đưa ra được thực hiện trên các mạng MLP khác nhau. Đầu vào là gồm 5-7 khung ngữ cảnh của 13 thành phần gồm đạo hàm năng lượng và CMS-LPC (∆-energy, CMS- cepstrum) hoặc 26 giá trị gồm đạo hàm thứ nhất và thứ hai của hàm năng lượng, CMS-LPC, và đạo hàm lần một của CMS (∆-∆-energy, ∆-energy, CMS-cepstral, ∆-CMS-cepstrum). Kết quả đạt được với hệ thống thể hiện trong bảng 5.6 [16]. Bảng 5.6. Kết quả sử dụng MLP như là bộ gán nhãn. MLP Sốđầu vào-số lớp ẩn – sốđầu ra Tỷ lệ lỗi Số các tham số (5*13)-100-126 5.8% 35202 (7*13)-200-126 4.7% 59602 (7*26)-90-126 5.5% 43812 Hệ thống thứ 3: sử dụng mô hình hybrid với việc sử dụng mạng MLP như là một bộ ước lượng xác suất hậu nghiệm cho mô hình HMM. Lý thuyết về mô hình được trình bày ở …Kết quả thực hiện với 3 kiểu mô hình MLP khác nhau như trong bảng 5.7 [16].
Chương V. Mô hình Hyrbid kết hợp mạng nơ-ron và mô hình chuỗi Markov ẩn
Bảng 5.7. Kết quả sử dụng MLP đểước lượng xác suất hậu nghiệm.
MLP Sốđầu vào-số lớp ẩn – sốđầu ra Tỷ lệ lỗi Số các tham số (5*13)-100-126 4.3% 19326 (7*13)-200-126 3.1% 43726 (7*26)-90-126 3.4% 27936
Ta thấy kết quả của hệ thống thứ 3 dựa trên mô hình Hybrid sử dụng MLP để ước lượng xác suất hậu nghiệm so với hệ thống 2 sử dụng mô hình Hybrid trong đó mạng MLP như là bộ gán nhãn có cao hơn, nhưng điều quan trọng hơn nhưở trong cột thứ 3 ở bảng (5.6 và 5.7) đó là việc sử dụng số thông số ít hơn của hệ thống thứ 3 so với hệ thống thứ 2.
Chương VI. Xây dựng chương trình nhận dạng tiếng nói tiếng Việt
CHƯƠNG VI. XÂY DỰNG CHƯƠNG TRÌNH NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT
VI.1. LỰA CHỌN MÔ HÌNH CHO BÀI TOÁN NHẬN DẠNG TIẾNG VIỆT
Ở chương V ta đã trình bày về một số nghiên cứu trên thế giới khi ứng dụng các mô hình Hybrid vào các hệ thống nhận dạng tiếng nói rời rạc và liên tục. Ta có thể thấy được từ các kết quả đưa ra, việc sử dụng mô hình Hybrid cho kết quả cao hơn khi sử dụng các mô hình HMM và mạng nơ-ron. Ở chương này ta sẽ thử nghiệm mô hình Hybrid cho việc nhận dạng tiếng nói tiếng Việt Trong luận văn này, đề xuất sử dụng hệ thống nhận dạng lời nói bằng mạng nơron hybrid/ mô hình Markov ẩn rời rạc (HMM), sử dụng mạng nơron cho lượng tử Vectơ (vector quantization-VQ) cho quá trình hậu xử lý các thông tin quyết định của HMM. Hệ thống nhận dạng lời nói được trình bày là sự
hợp nhất các khả năng học và phân loại mạnh mà được biểu thị bằng mạng nơ-ron với các thuộc tính xử lý thời gian mạnh của mô hình HMM.
Hệ thống được thử nghiệm cho bài toán nhận dạng khối lượng từ vựng nhỏ, ở đây là các số từ 0 đến 9.
VI.1.1. Hệ thống nhận dạng lời nói đề xuất
Cấu trúc cơ sở của hệ thống nhận dạng bằng HMM rời rạc/ mạng nơ-ron hybrid được trình bày ở đây là dựa trên bộ nhận biết tiếng nói VQ-HMM . Trong luận văn này, đề xuất mô hình nhận dạng lời nói như sau:
1. Sử dụng mạng nơ-ron để lượng tử hoá vector.
2. Kết quả đầu ra của mạng nơ-ron được đưa vào mô hình Markov ẩn rời rạc ( DHMM) để thực hiện quyết định kết quả nhận dạng.
Chương VI. Xây dựng chương trình nhận dạng tiếng nói tiếng Việt
Sau đây là sơđồ khối của hệ thống nhận dạng lời nói:
Hình 6.1: Hệ thống nhận dạng lời nói đề xuất
1. Tín hiệu tiếng nói: là tín hiệu số thu được từ micro qua bộ chuyển đổi tín hiệu tương tự- số với tần số lấy mẫu thích hợp. Trong các ứng dụng nhận dạng lời nói thường sử dụng tần số lấy mẫu là 11025Hz.
2. Trích chọn đặc trưng: phân tích các tham số của tín hiệu tiếng nói. Ở đây các tham số thường sử dụng là LPC và MFCC.
3. Lượng tử hóa véc tơ sử dụng mạng Nơ-ron: lượng tử hóa véctơ để vạch ra các vectơ đặc trưng liên tục lên trên các chỉ số codebook rời rạc. lượng tử hóa vector (VQ) đựa trên thông tin có quan hệ lớn nhất (Maximal mutual information-MMI). Mạng nơ-ron sử dụng ở đây là mạng cạnh tranh được huấn luyện để thực hiện việc lượng tử hóa vector (VQ) cho một HMM rời rạc, cùng với thuật toán không giám sát dựa trên tiêu chuẩn MMI. Các hàm kích hoạt đầu ra làm thế nào để chỉ ra “khoảng” giữa véc tơ đầu vào âm học và codewords của codebook rời rạc của các biểu tượng đầu vào.
4. Mô hình Markov ẩn rời rạc để quyết định kết quả nhận dạng.
Theo sơ đồ hình (6.1) ta thấy chương trình được xây dựng trên cơ sở các module chính sau:
9 Module phân tích và trích chọn đặc trưng của tiếng nói.
9 Module huấn luyện mô hình mạng nơ-ron cho việc lượng tử hóa vector ( VQ ), luyện
9 Module nhận dạng.
Để thực hiện các module trên ta sử dụng công cụ Matlab. Bởi vì như ta đã biết, đây là một công cụ rất mạnh trong mô phỏng và xử lý tín hiệu. Trong phiên bản R2007b trở về sau của Matlab, có trang bị Tool về Nơ-ron Network
Chương VI. Xây dựng chương trình nhận dạng tiếng nói tiếng Việt
khá mạnh và hơi khác một chút so với các phiên bản trước đó. Các Tools sẽ
sử dụng của Matlab gồm có:
- Nơ-ron Network Toolbox: Dùng để xây dựng mạng nơ-ron, tối ưu thông số mạng.
- Auditory Toolbox: Dùng để xây dựng và tạo mô hình HMM (Hidden Markov Model)
- Signal processing Toolbox: Dùng để lọc tiếng nói, hiệu chỉnh, tính toán các đặc tính của tiếng nói.
VI.1.2. Thực hiện các module trong Matlab
Module phân tích và trích chọn đặc trưng của tiếng nói.
Trong chương II ta đã đề cập tới 2 phương pháp phân tích tham số tiếng nói,
đó là phân tích cepstral thông qua bộ xử lý LPC và phương pháp tính các hệ
số MFCC. Tuy nhiên, qua thực nghiệm thì phương pháp sử dụng các hệ số
MFCC thường có độ chính xác cao hơn. Bởi vậy ở đây ta sẽ sử dụng các hệ
số MFCC làm vector tham số đặc trưng tiếng nói. Quá trình tính các hệ số
MFCC như đã được trình bày theo phương pháp đã trình bày ở chương II. Thực hiện bằng trong file GenMFCC.m
Module huấn luyện.
1. Thực hiện luyện mạng nơ-ron như bộ lượng tử hóa vector (VQ).
Trong chương V ta đã đề cập tới phương pháp sử dụng mạng nơ-ron cho việc lượng tử hóa vector. Ở đây sử dụng mạng nơ-ron 2 lớp, với thuật toán học cạnh tranh để thực hiện lượng tử hóa vector, như đã chình bày trong mục V.2.2. Đầu vào là thành phần vector đặc trưng được thực hiện trong module phân tích và rút trích đặc trưng, sốđầu ra là 128, thực hiện 100 vòng lặp, tỷ lệ
học là 0.01, sử dụng thuật toán học không giám sát để huấn luyện mạng. Thực hiện bằng hàm trainfscl.m
2. Luyện mô hình HMM tương ứng với các số từ 0 đến 9. Huấn luyện mô hình HMM theo các dữ liệu đã được lượng tử hoá sử dụng mạng nơ-ron đã tính được từ bước trên, và tạo ra 10 mô hình HMM riêng biệt cho từng từ
Chương VI. Xây dựng chương trình nhận dạng tiếng nói tiếng Việt
khoá nhận dạng. Các mô hình này được lưu lại dưới dạng file HMM_(từ
khoá).mat. Hàm này được viết trên Matlab là mk_mfcc_train_all.m
Module nhận dạng
Để kiểm tra mẫu nhận dạng với thủ tục forward để tính xác suất của chuổi quan sát với mô hình HMM cho trước. Từ cần nhận dạng sau quá trình xử lý chuyển thành chuỗi quan sát lần lượt được đưa vào các mô hình của các lớp từ đã xây dựng và tính xác xuất ra P(O|λ). Với mô hình nào có xác suất này cao nhất thì từ cần nhận dạng sẽđược xếp vào lớp đó.
VI.1.3. XÂY DỰNG CHƯƠNG TRÌNH NHẬN DẠNG TIẾNG VIỆT
Sử dụng công cụ GUI Builder của Matlab để xây dựng chương trình nhận dạng tiếng Việt. Chương trình nhận dạng tiếng việt dựa trên mô hình hybrid kết hợp mạng nơ-ron nhân tạo với mô hình Markov ẩn rời rạc như đã trình bày trong các phần trên, áp dụng để nhận dạng các số tiếng Việt từ 0 đến 9.
Giao diện chính của chương trình :
Chương VI. Xây dựng chương trình nhận dạng tiếng nói tiếng Việt
- Nút GenMFCC : thực hiện việc trích chọn đặc trưng của tập mẫu huấn luyện là các fiel .wav lưu trong mục train, và kết quả là các đặc trưng MFCC tương ứng lưu trong thu mục MFCC.
- Nút TrainCNN : thực hiện việc huấn luyện mạng nơ-ron cạnh tranh cho việc lượng tử hóa, với đầu vào được lấy từ các file lưu trong thu mục MFCC.
- Nút TrainHMM : Thực hiện việc luyện mô hình HMM tương ứng với các từ từ 0 đến 9.
- Nút TestHMM : thực hiện việc kiểm tra tra mô hình HMM và đưa ra kết quả nhận dạng.
VI.2.KẾT QUẢ THỰC HIỆN CHƯƠNG TRÌNH
Một số thực nghiệm đã được thực hiện để đánh giá hiệu năng của các mô hình. Tất cả các kiểm tra này được thực hiện trên cơ sở đánh giá tỉ lệ nhận dạng đúng của các file âm thanh thu sẵn với định dạng WAVE PCM Mono 16 bit, với tần số lấy mẫu là 11025Hz.
Mô hình các từ cần được nhận dạng (các số từ 0 đến 9) được đặc trưng bởi một mô hình Markov ẩn rời rạc loại Bakis (trái-phải) bước nhảy 1, có số trạng thái là 6. Mỗi đoạn tiếng nói dài 256 mẫu (23ms), phủ lên nhau 128 mẫu. Vector đặc trưng gồm có 39 thành phần, bao gồm 12 hệ số MFCC+1 hệ số
logarit năng lượng đoạn và 26 hệ sốđạo hàm theo thời gian của chúng.
Tiếng nói được thu trong điều kiện phòng làm việc bình thường, bao gồm giọng của 5 người.
- Điều kiện thu âm : phòng làm việc bình thường , micro sử dụng loại micro TAKO.
- Điều kiện huấn luyện mô hình : mỗi số được biểu diễn bởi một mô hình. Huấn luyện các mô hình bởi các sốđược nói độc lập, rời rạc. - Dữ liệu với mỗi số từ 0 đến 9 đọc 50 lần liên tục, sau đó dùng phần mềm Sound forge 9.0 để cắt các file. Như vậy với mỗi từ ta có 250
Chương VI. Xây dựng chương trình nhận dạng tiếng nói tiếng Việt
mẫu, ta sử dụng 200 mẫu để huấn luyện và 50 mẫu kiểm tra. Kết quả đánh giá dựa trên kết quả nhận dạng của bộ mẫu kiểm tra
Kết quả nhận dạng với hai mô hình hybrid : Mạng nơ-ron với thuật toán học cạnh tranh : 39 đầu vào và 100 đầu ra, thực hiện 100 vòng lặp với tỷ lệ học là 0.01. Mô hình HMM sử dụng mô hình 6 tráng thái.
Bảng 6.1.Kết quả kiểm tra trên 50 mẫu kiểm tra cho mỗi từ
Từ
Nhận dạng
Không Một Hai Ba Bon Nam Sau Bay Tam Chin
Không 50 1 1 1 Một 48 Hai 50 Ba 49 Bốn 50 Năm 50 Sau 50 Bay 1 49 Tam 50 Chin 50 TB(%) 100 96 100 98 100 100 100 98 100 100 Tỷ lệ nhận dạng trên 50 mẫu kiểm tra đạt 99,2%.
VI.3.KẾT LUẬN VÀ PHƯƠNG HƯỚNG PHÁT TRIỂN.
Trong thời gian làm luận văn, với mục tiêu là nhận dạng tiếng nói tiếng Việt sử dụng chuỗi Markov ẩn và mạng nơ-ron. Bước đầu tiên em đã tổng hợp
được một vài phương pháp kết hợp sử dụng mạng nerual và chuỗi markov ẩn
đã được thực hiện thành công trên thế giới. Như các kết quả nghiên cứu được trình bày ở chương V, ta có thể thấy được sức mạnh của hệ thống nhận dạng
Chương VI. Xây dựng chương trình nhận dạng tiếng nói tiếng Việt
tục. Nó là sự kết hợp ưu điểm của mạng nơ-ron nhân tạo đó là cấu trúc tính toán song song, với các thuật toán học đa dạng và mạnh mẽ. Kết hợp với mô hình chuỗi Markov ẩn là mô hình dựa trên thống kê dùng để mô hình hoá các loại tín hiệu theo thời gian, được sử dụng rất thành công trong những
ứng dụng về nhận dạng. Nó có khả năng mô hình hoá tiếng nói theo thời gian dựa trên cấu trúc được ràng buộc bằng toán học chặt chẽ. Dựa trên các nghiên cứu đó, ở chương VI ta đã xây dựng một chương trình dạng tiếng nói rời rạc phụ thuộc người nói sử dụng cho tiếng việt, với các từ được nhận dạng từ 0
đến 9, dựa trên mô hình Hybrid kết hợp mạng nơ-ron và mô hình chuỗi markov ẩn. Từ bảng 6.1 ta thấy, kết quả nhận dạng từ hai mô hình Hybrid rất tốt với mô hình nhận dạng phụ thuộc người nói. Do thời gian không nhiều, khả năng học viên còn hạn chế nên những kết quả nghiên cứu được mới chỉ
dừng lại trong phạm vi cuốn đồ án này. Phương pháp mới chỉ được áp dụng
để nhận dạng các từ rời rạc với lượng từ vựng nhỏ, hệ thống nhận dạng phụ
thuộc người nói. Vì vậy phương hướng phát triển đề tài : xây dựng một hệ
thống nhận dạng từ liên tục với việc dựa trên các mô hình Hybrid, dựa trên khả năng ứng dụng mạnh mẽ của mô hình hybrid trong việc xây dựng hệ
Tài liệu tham khảo
[1]. Lawrence Rabiner and Biing-Hwang Juan, “Fundamentals of Speech Recognition”, Prentice Hall, 1993.
[2]. Steve Yuong et al, “the HTK Book (for HTK version 3.0)”, Microsoft Corpration, 2000.
[3]. R.P.Lippmann, “Review of neural networks for speech recognition,” Neural Computation, vol. 1, pp. 1-38, 1989.).
[4]. A. Waibel, T. Hanazawa, G. Hinton, K. Shikano and K.Lang, “Phoneme recognition using time-delay neural networks” , IEEE Trans. On Acounst., Speech, and Signal Processing, vol. 37, no. 3, pp. 328-339, March 1989.
[5]. K. Lang, A. Waibel and G. Hinton, “A time-delay neural network architecture for isolate word recognition” , Neural Networks, vol. 3.,pp. 23- 43, 1990.
[6]. Gigoll, G. “Maximum Matual Information Neural Networks for Hybrid Connectionist-HMM Speech Recognition Systems”. IEEE Transactions on Speech anh Audio Processing, Vol. 2, No. 1, Special Issue on Neural