Tổng cộng và khảo sát thử trên: 257 tiếng khác nhau, thu mẫu 4000 tiếng, trung bình mỗi tiếng thu mẫu 15 lần, kết quả nhận dạng lại trên những mẫu đã học.
1. Với vector đặc trưng gồm 11 thành phần:
Với các thông số của mô hình markovẩn khác nhau có kết quả tươngứng như sau: 5 trạng thái, 1 mixer : 92,24%
5 trạng thái, 4 mixer : 94,72% 6 trạng thái, 4 mixer : 94,91% 7 trạng thái, 4 mixer : 95,51%
2. Với vector đặc trưng gồm 11 thành phần:
yt= [ log( ft) ,|log( ft– ft+1) | , log( ft+ ft+1) , | log(e – et) | , log( d ) ,
log( fmax) , log( fmin) , log( fmax– fst) , log( fmax– fed), log( fst– fmin) log( fed– fmin) ]
Với các thông số của mô hình markovẩn có kết quả tươngứng như sau: 7 trạng thái, 4 mixer : 92,38%
3. Với vector đặc trưng gồm 9 thành phần:
yt = [ ft , ft– ft+1 , e – e t , fmax , fmin , fmax – fst , fmax – fed , fst – fmin , fed– fmin ]
Với các thông số của mô hình markov ẩn có kết quả tươngứng như sau: 6 trạng thái, 4 mixer: 92,23%
4. Với vector đặc trưng gồm 9 thành phần:
Với các thông số của mô hình markovẩn có kết quả tươngứng như sau: 6 trạng thái, 4 mixer: 94,66%
5. Với vector đặc trưng gồm 13 thành phần:
yt= [ ft, ft– ft+1, e – e t , d , fmax , fmin , fmax– fst , fmax– fed , fst– fmin, fed– fmin , fst , fed , fst– fed ]
Với các thông số của mô hình markovẩn có kết quả tươngứng như sau: 6 trạng thái, 4 mixer: 94,49%
6. Với vector đặc trưng gồm 12 thành phần:
yt= [ ft, ft– ft+1 , ft + ft+1, e – e t, d , fmax , fmin , fmax– fst, fmax– fed , fst– fmin , fed– fmin, fmax– fmin ]
Với các thông số của mô hình markovẩn có kết quả tươngứng như sau: 6 trạng thái, 4 mixer: 95,28%
7. Với vector đặc trưng gồm 10 thành phần:
yt= [ ft, ft– ft+1 , e – e t, d , fmax , fmin , fmax– fst, fmax– fed, fst– fmin, fed– fmin ]
Với các thông số của mô hình markov ẩn khác nhau có kết quả tương ứng như
sau :
Nhận dạng với 8 mô hình (phân chia mỗi thanh sắc và nặng thành 2 trường hợp)
6 trạng thái, 4 mixer, bỏ phần bắt đầu và kết thúc 10%: 95,39% 6 trạng thái, 4 mixer, bỏ phần bắt đầu và kết thúc 5% : 95,09%
Nhận dạng 6 mô hình cho 6 thanhđiệu (không phân chia thanh sắc và nặng) 6 trạng thái, 4 mixer, bỏ phần bắt đầu 10%: 97,67%
Tách riêng huấn luyện 300 mẫu, test 200 mẫu đối với nhận dạng 6 thanh : 6 trạng thái, 4 mixer, bỏ phần bắt đầu 10%: 95,69%
6 trạng thái, 4 mixer, bỏ phần bắt đầu 10%, nhận dạng 8 mô hình cho 8 thanh (mỗi thanh sắc và nặng chia thành 2 trường hợp) , sau đó dùng luật quyết
Kết quả: Tổng cộng 4000 tiếng Đúng 3941 tiếng(98,5 %) Sai 59 tiếng (1,5%) Ngan g Huyền Ngã Hỏi Sắc Nặng Tỉ lệ đúng Ngang 657 6 99.1% Huyền 657 100% Ngã 657 24 5 95.77% Hỏi 3 657 1 99.39% Sắc 13 656 98.06% Nặng 3 1 1 2 657 98.95% Kết quả nhận dạng lại trên những mẫu đã học đúng khoảng ~98.5%.
Chương 6.
Thiết kế mô hình nhận dạng tiếng nói tiếng Việt
Để giải quyết được bài toán nhận dạng tiếng Việt thì nhận dạng thanh điệu là rất cần thiết. Tuy không triệt để (không nhận dạng được toàn bộ các từ) nhưng có thể
làm tăng bộ từ vựng trong nhận dạng (bộ từ vựng có thể lớn hơn 200 từ ) với độ chính xác 90 - 96%. Ngoài ra để giải quyết được triệt để bài toán nhận dạng chúng ta cần kết hợp với mô hình ngôn ngữ, hoặc giải quyết bằng phương pháp nhận dạng âm vị
kết hợp với mô hình ngôn ngữ và nhận dạng thanh điệu.
Trong nghiên cứu của luận văn, nhận dạng tất cả các thanh điệu đạt khoảng 98,5% trên số lượng từ vựng là 257 từđược thu mẫu 4000 lần. Tỷ lệ trên là tương đối cao so với các nghiên cứu trước đây (84%) nhưng vẫn chưa dùng tốt cho nhận dạng. Chúng tôi đã tiến hành phân lớp thanh điệu thành 2 lớp: thanh cao và thanh thấp, kết quả phân lớp đạt được 99.71%. Vì vậy, chúng tôi chỉ ứng dụng mô đun nhận dạng thanh điệu tiếng Việt vào việc phân lớp. Nhờ đó có thể nâng được số lượng từ trong từđiển lên đáng kể mà vẫn giữđược độ chính xác cao.
Hình 6.1: Mô hình tổng quát;
(a) công đoạn huấn luyện; (b) công đoạn nhận dạng