Cơng đoạn nhận dạng

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nhận dạng tiếng Việt sử dụng biến đổi Wavelet và mô hình Markov ẩn Luận văn ThS Kỹ thuật Điện tử - Viễn thông 2 07 00 (Trang 110 - 112)

Hình 6 .1 Mơ hình tổng qt hệ nhận dạng nguyên từ tiếng Việt

Hình 6.3 Cơng đoạn nhận dạng

Bắt đầu cơng đoạn nhận dạng, tín hiệu tiếng nói sẽ được đưa qua bộ xác định lớp thanh điệu. Tại đây các cơng việc trích pitch và phân lớp sẽ được tiến hành.

Sau khi đã xác định được lớp, chương trình sẽ lấy bộ từ vựng tương ứng của lớp đó lên để tiến hành việc nhận dạng từ. Như vậy, thay vì phải nhận dạng X*A từ (sẽ vượt q khả năng của mơ hình HMM), chúng ta chỉ cần nhận dạng A từ của lớp thứ Xi.

Tóm lại, cơng đoạn nhận dạng ở đây chúng tôi chia làm hai bước: Bước 1: xác định lớp từ điển.

Bước 2: nhận dạng trong lớp từ điển đã xác định.

6.2 Cài đặt hệ thống nhận dạng tiếng Việt nguyên từ rời rạc hồn chỉnh. 6.2.1 Mơi trường xây dựng hệ thống

Để tận dụng sự hỗ trợ của MATLAB về các hàm toán học, các ToolBox Signal Processing, Wavelet, Statistics (HMM) chúng tôi chọn môi trường cài đặt hệ thống là MATLAB 7.01.

6.2.2 Bộ từ dùng cho huấn luyện và nhận dạng:

Bài toán nhận dạng ở đây phục vụ cho việc điều khiển Robot bằng tiếng nói bao gồm 6 từ điều khiển (trái, phải, tiến, lùi, thẳng, dừng) để điều khiển robot chuyển động theo các hướng.

Dữ liệu dùng để huấn luyện được thu với tần số lấy mẫu 16 KHz. Bộ từ dùng để huấn luyện điển gồm 6 từ thu từ 20 người nói khác nhau với tổng số từ là 120 từ. Bộ từ dùng cho nhận dạng độc lập với bộ từ dùng để huấn luyện với số lượng tương đương.

Trong đó:

Lớp 1 (nhóm thanh cao) gồm có thanh sắc, ngã: trái, tiến.

Lớp 2 (nhóm thanh thấp) gồm thanh ngang, huyền, ngã, hỏi, nặng.: phải, lùi, dừng, thẳng

6.2.3 Tạo vector đặc trưng V(SCWT)

Như trong 4.4.4 đã đề cập, MFCC và SCWT cho kết quả tương đương nhau nhưng MFCC có ưu điểm tính tốn nhanh hơn. Mặc dù vậy với mong muốn đề xuất một phương pháp nhận dạng tiếng Việt mới, chúng tôi đã sử dụng SCWT làm vector đặc trưng cho hệ thống nhận dạng.

Các hệ số SCWT của các khung tiếng nói được đ ưa qua lọc thông thấp và hạ mẫu từ 16KHz xuống 100 Hz. Phân tích Ceptral được sử dụng để giảm số lượng hệ số SCWT xuống 12 hệ số Ceptral với độ tin cậy và tập trung cao hơn được sử dụng làm vector đặc trưng cho hệ thống nhận dạng.

6.2.4 Phân lớp

Trích F0 theo giải thuật dùng CWT trong 4.5.2

Giá trị trung bình của F0 của các thanh ngang sẽ là giá trị ngưỡng phân lớp. Giá trị này sẽ được cộng thêm P trong quá trình phân lớp, (P là phương sai của F0).

Theo khảo sát, giá trị phương sai của tần số cơ bản của thanh ngang: ở giọng nữ (8 – 16) Hz, ở giọng nam (20 – 24) Hz. Do dữ liệu tiếng nói trong từ điển là giọng nam nên chúng tôi chọn P = 20.

6.2.5 Mơ hình HMM cho các từ nhận dạng

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nhận dạng tiếng Việt sử dụng biến đổi Wavelet và mô hình Markov ẩn Luận văn ThS Kỹ thuật Điện tử - Viễn thông 2 07 00 (Trang 110 - 112)

Tải bản đầy đủ (PDF)

(120 trang)