Nghĩa của Tiền xử lý Tiếng nói

Một phần của tài liệu Nhận dạng tiếng nói tiếng việt theo hướng tiếp cận nhận dạng âm vị tự động (Trang 48 - 49)

Để nhận dạng tiếng nói, trước tiên cần thu tiếng nói. Chất lượng tiếng nói thu

được càng tốt thì nhận dạng càng chính xác. Tuy nhiện trên thực tế, dù là trong phòng thí nghiệm hay môi trường sinh hoạt hàng ngày, người ta vẫn chỉ thu được tiếng nói kèm theo nhiều tín hiệu không mong muốn khác, bao gồm tiếng ồn (tiếng quạt máy, xe cộ,…), nhiễu (tiếng nhép môi, tiếng thở, nhiễu do điện từ, tiếng đĩa CD-ROM của PC quay,…), tiếng vang,… Ngoài ra, âm thanh thu được có thể bị

bóp méo do thiết bị (microphone, card âm thanh,…), âm thanh quá nhỏ, quá lớn,… Vì vậy, quá trình tiền xử lý được đưa vào quá trình nhận dạng tiếng nói (ngay sau giai đoạn thu âm thanh) nhằm đưa chất lượng âm thanh lên cao nhất có lợi cho quá trình nhận dạng sau này (khi học mẫu, nhận dạng,…).

Về mặt kỹ thuật, quá trình tiền xử lý sẽ áp dụng các phương pháp máy học, thuật giải hoặc áp dụng một hay nhiều bộ lọc lên tín hiệu tiếng nói vừa mới thu

được. Gọi: Yi là tín hiệu thu được tại thời điểm i Xi là tín hiệu thuần tiếng nói tại thời điểm i Ni là tín hiệu khác (tín hiệu nhiễu, làm móp tiếng, …) tại thời điểm i ta có: Yi = Xi + Ni

KHOA CNTT – ĐH KHTN ∑ = M j i i N j N [ ]

Như vậy, đầu vào của quá trình tiền xử lý là dãy tín hiệu âm thanh thu được có chiều dài k:

Y = {Y1, Y2, …, Yk}

Và đầu ra là dãy tín hiệu tiếng nói lý tưởng có cùng chiều dài: X = {X1, X2, … , Xk}

Thực hiện tốt quá trình tiền xử lý sẽ nâng cao đáng kể chất lượng nhận dạng. Tuy nhiên trên thực tế, quá trình tiền xử lý chỉ hạn chế những ảnh hưởng không mong muốn tác động xấu đến kết quả nhận dạng chứ không thể triệt tiêu hết được chúng.

Một phần của tài liệu Nhận dạng tiếng nói tiếng việt theo hướng tiếp cận nhận dạng âm vị tự động (Trang 48 - 49)

Tải bản đầy đủ (PDF)

(91 trang)