Phát hiện tiếng nói

Một phần của tài liệu Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh (Trang 51 - 53)

Chương 4 : NHẬN DẠNG TIẾNG NÓI

4.2. Cơ sơ lý thuyết xử lý và nhận dạng tiếng nói

4.2.3. Phát hiện tiếng nói

Phát hiện thời điểm bắt đầu, điểm kết thúc của tiếng nói (tách tiếng nói ra khỏi khoảng lặng) là phần cần thiết trong chương trình nhận dạng tiếng nói, đặc biệt trong chế độ thời gian thực. Có ba phương pháp phát hiện tiếng nói thơng dụng đó là phát hiện tiến nói dựa trên hàm năng lượng thời gian ngắn SE (Short Energy), Phát hiện tiếng nói dựa trên hàm giả năng lượng và tỷ lệ vượt quá điểm không ZCR (Zero Crossing) và phát hiện tiếng nói dựa trên năng lượng phổ ngắn hạn.

a. Phát hiện tiếng nói dựa trên hàm năng lượng thời gian ngắn.

Hàm năng lượng thời gian ngắn của tín hiệu tiếng nói được tính bằng cách chia tín hiệu tiếng nói thành các khung, mỗi khung dài N mẫu. Mỗi khung được nhân với một hàm cửa sổ W(n).Nếu hàm cửa sổ bắt đầu xét ở mẫu thứ m thì hàm năng lượng thời gian ngắn Em được xác định như sau:

= ∑ ⌊ ( ) ( − )⌋

Trong đó: n: biểu thức rời rạc m: số mẫu thử thứ m N: là tổng số mẫu tiếng nói

Hàm cửa sổ W(n) thường dùng là hàm cửa sổ chữ nhật được xác định như sau: ( ) = 1 0 ≤ < − 1

0 ≥

b. Phát hiện tiếng nói dựa trên hàm giả năng lượng và tỷ lệ vượt q điểm khơng

Thuật tốn này xác định điểm bắt đầu, điểm kết thúc của tín hiệu tiếng nói dựa trên hai đại lượng tĩnh của tín hiệu tiếng nói là: hàm giả năng lượng E (Pseudo- Energy) và tỷ lệ vượt quá điểm không ZCR (Zero Crossing Rate). Trong một dãy giá trị tín hiệu tiếng nói được rời rạc hóa, điểm khơng là điểm tại đó diễn ra sự đổi dấu

(4.1)

cường độ tín hiệu và được mơ tả bởi: sgn[x(n+1)] ≠ sgn[x(n)]. Trong đó: sgn(x) là hàm dấu. Năng lượng là đại lượng được dùng để xác định vùng chứa âm hữu thanh, vô thanh. Nhưng hàm năng lượng thường rất nhạy cảm với nhiễu. Do vậy, người ta thường sử dụng hàm giả năng lượng trong tính tốn. Hàm giả năng lượng được xác định bởi:

( ) = | ( ) ( − 1)| Trong đó:

( ) : là hàm giả năng lượng, N: là kích thước khung cửa sổ. Tỷ lệ vượt q điểm khơng ZCR

Nhận thấy rằng khung có năng lượng càng cao thì tỷ lệ vượt q điểm khơng càng thấp và ngược lại. Như vậy, tỷ lệ vượt quá điểm không là đại lượng đặc trưng cho tần số tín hiệu tiếng nói. Ở đây, chúng ta cần xác định các tham số ngưỡng cho hàm giả năng lượng với hai ngưỡng trên và dưới và một ngưỡng tỷ lệ vượt quá điểm khơng.

Kí hiệu:

E up : ngưỡng năng lượng trên (cao); Edown : ngưỡng năng lượng dưới (thấp); ZCR _ T : ngưỡng tỷ lệ vượt q điểm khơng.

c. Phát hiện tiếng nói dựa trên năng lượng phổ ngắn hạn

Ý tưởng chính của phương pháp này là sử dụng bộ điều khiển dị biên tiếng nói VAD (Voice Activity Detector) dựa trên việc xác định năng lượng phổ ngắn hạnfE trên các khung tín hiệu tiếng nói. VAD dùng để xác định một khung chứa tín hiệu tiếng nói hay nhiễu. Hàm đầu ra của VAD trên khung thứ m là v [m]. Với khung chứa tiếng nói (có thể cả nhiễu) v[m]=1, ngược lại khung chỉ chứa nhiễu v [m]=0.

s(n)

( )

Một phần của tài liệu Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh (Trang 51 - 53)