Mơ hình nhận dạng thanh điệu tiếng Việt

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nhận dạng tiếng Việt sử dụng biến đổi Wavelet và mô hình Markov ẩn Luận văn ThS Kỹ thuật Điện tử - Viễn thông 2 07 00 (Trang 102 - 105)

công đoạn nhận dạng.

5.4.1 Khối tiền xử lý

Tiếng nói được thu qua micro trong mơi trường thực có nhiễu nên cần phải được xử lý triệt nhiễu và nâng cao chất lượng. Phương pháp sử dụng là phương pháp triệt nhiễu dùng biến đổi wavelet cải tiến (Xem 4.3.2).

Trong công thức 4.9 hằng số tỷ lệ  được chọn bằng thực nghiệm là 0.38, q = 0.2, độ dài tương ứng của khung Lfrm và đoạn Lseg cũng được chọn bằng thực nghiệm là 64ms và 512ms.

Trong công thức 4.12 để đơn giản chọn  = 0.5

Sau khi được triệt nhiễu, tín hiệu tiếng nói sẽ được phân đoạn thành các khung chồng lấp, tiếp theo đó sẽ được nhân với cửa sổ Hamming 512 điểm để làm trơn phần đầu và cuối khung (Xem 2.2.1.2, 2.2.1.3).

5.4.2 Khối trích chu kỳ pitch

Như đã khảo sát trong phần 5.2, yếu tố chủ yếu ảnh hưởng đến thanh điệu là tần số cơ bản F0 nên giá trị này cần phải được xác định trong mỗi khung tiếng nói.

Hình 5.9: Tín hiệu tuần hồn của ngun âm [o] trong tiếng ‘hỏi’

F0 được trích theo phương pháp dùng CWT (Xem 4.5.2).

5.4.3 Tạo vector đặc trưng V(F0)

Trong nhận dạng tiếng Trung Quốc (Mandarin), Yang et all định nghĩa vector đặc trưng như sau:

bản F0 chúng tôi sử dụng vector đặc trưng cải tiến từ vector Mandarin có 10 thành phần như sau:

Cơng thức 5.2

Trong đó:

- ft là tần số cơ bản tại khung tín hiệu t. - ft+1 là tần số cơ bản tại khung tín hiệu t+1 - et là năng lượng tại khung tín hiệu t

- emax là năng lượng cực đại trong phần hữu thanh - d là chiều dài của phần hữu thanh (tính bằng số khung) - fmax là tần số cơ bản cực đại trong vùng hữu thanh - fmin là tần số cơ bản cực tiểu trong vùng hữu thanh

- fst là tần số cơ bản ở khung đầu tiên trong vùng hữu thanh - fed là tần số cơ bản ở khung cuối cùng trong vùng hữu thanh

5.4.4. Huấn luyện cho mơ hình

Trong mơ hình nhận dạng thanh điệu tiếng việt chúng tôi sử dụng 8 mơ hình MM tương ứng cho 6 thanh điệu. Ở đây chúng tơi sử dụng 8 mơ hình vì thanh có 5 có trường hợp là 5a và 5b, thanh 6 có 2 trường hợp là thanh 6a và 6b.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nhận dạng tiếng Việt sử dụng biến đổi Wavelet và mô hình Markov ẩn Luận văn ThS Kỹ thuật Điện tử - Viễn thông 2 07 00 (Trang 102 - 105)

Tải bản đầy đủ (PDF)

(120 trang)