Sơ đồ khối hệ nhận dạng tiếng nói theo phương pháp từ dưới lên

Một phần của tài liệu Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh (Trang 62 - 65)

Có nhiều cách khác nhau để tổng hợp các nguồn kiến thức vào bộ nhận dạng tiếng nói. Phương pháp thông dụng nhất là xử lý “từ dưới lên”. Theo cách này, tiến trình xử lý của hệ thống được triển khai tuần tự từ thấp lên cao. Trong hình 4.6, các bước xử lý ở mức thấp (phân tích tín hiệu, tìm đặc tính, phân đoạn, gán nhãn) được triển khai trước khi thực hiện các bước xử lý ở mức cao (phân lớp âm thanh, xác định từ, xác định câu). Mỗi bước xử lý đòi hỏi một hoặc một số nguồn kiến thức nhất định. Chẳng hạn, bước phân đoạn tiếng nói cần hiểu biết sâu sắc về đặc tính Âm học-Ngữ âm học của các đơn vị ngữ âm; bước xác định từ đòi hỏi kiến thức về từ vựng; bước xác định câu địi hỏi kiến thức về mơ hình ngơn ngữ (ngun tắc ngữ pháp).

Phương pháp này đã và đang được áp dụng thành cơng trong các ứng dụng nhận dạng tiếng nói thực tế. Các nguồn kiến thức Tiếng nói Phân tích tín hiệu Trích chọn đặc trưng Phân đoạn Gán nhãn

Phân lớp âm thanh

Xác định từ

Xác định câu

Âm hữu thanh/ vô thanh/ khoảng lặng

Nguyen tắc phân loại

Nguyen tắc ngữ âm

Truy cập từ điển

4.2.3. Phát hiện tiếng nói

Phát hiện thời điểm bắt đầu, điểm kết thúc của tiếng nói (tách tiếng nói ra khỏi khoảng lặng) là phần cần thiết trong chương trình nhận dạng tiếng nói, đặc biệt trong chế độ thời gian thực. Có ba phương pháp phát hiện tiếng nói thơng dụng đó là phát hiện tiến nói dựa trên hàm năng lượng thời gian ngắn SE (Short Energy), Phát hiện tiếng nói dựa trên hàm giả năng lượng và tỷ lệ vượt quá điểm không ZCR (Zero Crossing) và phát hiện tiếng nói dựa trên năng lượng phổ ngắn hạn.

a. Phát hiện tiếng nói dựa trên hàm năng lượng thời gian ngắn.

Hàm năng lượng thời gian ngắn của tín hiệu tiếng nói được tính bằng cách chia tín hiệu tiếng nói thành các khung, mỗi khung dài N mẫu. Mỗi khung được nhân với một hàm cửa sổ W(n).Nếu hàm cửa sổ bắt đầu xét ở mẫu thứ m thì hàm năng lượng thời gian ngắn Em được xác định như sau:

= ∑ ⌊ ( ) ( − )⌋

Trong đó: n: biểu thức rời rạc

m: số mẫu thử thứ m

N: là tổng số mẫu tiếng nói

Hàm cửa sổ W(n) thường dùng là hàm cửa sổ chữ nhật được xác định như sau:

( ) = 1 0 ≤ < − 1

0 ≥

b. Phát hiện tiếng nói dựa trên hàm giả năng lượng và tỷ lệ vượt q điểm khơng

Thuật tốn này xác định điểm bắt đầu, điểm kết thúc của tín hiệu tiếng nói dựa trên hai đại lượng tĩnh của tín hiệu tiếng nói là: hàm giả năng lượng E (Pseudo- Energy) và tỷ lệ vượt quá điểm không ZCR (Zero Crossing Rate). Trong một dãy giá trị tín hiệu tiếng nói được rời rạc hóa, điểm khơng là điểm tại đó diễn ra sự đổi dấu

(4.1)

cường độ tín hiệu và được mơ tả bởi: sgn[x(n+1)] ≠ sgn[x(n)]. Trong đó: sgn(x) là hàm dấu. Năng lượng là đại lượng được dùng để xác định vùng chứa âm hữu thanh, vô thanh. Nhưng hàm năng lượng thường rất nhạy cảm với nhiễu. Do vậy, người ta thường sử dụng hàm giả năng lượng trong tính tốn. Hàm giả năng lượng được xác định bởi:

( ) = | ( ) ( − 1)|

Trong đó:

( ) : là hàm giả năng lượng,

N: là kích thước khung cửa sổ.

Tỷ lệ vượt quá điểm không ZCR

Nhận thấy rằng khung có năng lượng càng cao thì tỷ lệ vượt q điểm khơng càng thấp và ngược lại. Như vậy, tỷ lệ vượt quá điểm không là đại lượng đặc trưng cho tần số tín hiệu tiếng nói. Ở đây, chúng ta cần xác định các tham số ngưỡng cho hàm giả năng lượng với hai ngưỡng trên và dưới và một ngưỡng tỷ lệ vượt quá điểm khơng.

Kí hiệu:

E up : ngưỡng năng lượng trên (cao);

Edown : ngưỡng năng lượng dưới (thấp);

ZCR _ T : ngưỡng tỷ lệ vượt quá điểm không.

c. Phát hiện tiếng nói dựa trên năng lượng phổ ngắn hạn

Ý tưởng chính của phương pháp này là sử dụng bộ điều khiển dị biên tiếng nói VAD (Voice Activity Detector) dựa trên việc xác định năng lượng phổ ngắn hạnfE trên các khung tín hiệu tiếng nói. VAD dùng để xác định một khung chứa tín hiệu tiếng nói hay nhiễu. Hàm đầu ra của VAD trên khung thứ m là v [m]. Với khung chứa tiếng nói (có thể cả nhiễu) v[m]=1, ngược lại khung chỉ chứa nhiễu v [m]=0.

s(n)

( )

4.2.4. Phương pháp trích chọn tham số đặc trưng của tín hiệu tiếng nói

Trích chọn các tham số đặc trưng là bước có ý nghĩa quyết định tới kết quả của các chương trình nhận dạng tiếng nói. Có nhiều phương pháp trích chọn các tham số đặc trưng nhưng nhìn chung các phương pháp này dựa trên hai cơ chế: mơ phỏng lại q trình cảm nhận âm thanh của tai người và mơ phỏng lại q trình tạo âm của cơ quan phát âm.

a. Phân tích cepstral theo thang đo Mel

Phương pháp tính các hệ số MFCC (Mel-scale Frequency Cepstral Coefficient) là phương pháp trích chọn tham số tiếng nói được sử dụng rộng rãi bởi tính hiệu quả của nó thơng qua phân tích cepstral theo thang đo Mel. Phương pháp này được xây dựng dựa trên sự cảm nhận của tai người đối với các dải tần số khác nhau. Với các tần số thấp (dưới 1 kHz), độ cảm nhận của tai người là tuyến tính. Đối với các tần số cao, độ biến thiên tuân theo hàm logarit. Các băng lọc tuyến tính ở tần số thấp và biến thiên theo hàm logarit ở tần số cao được sử dụng để trích chọn các đặc trưng âm học quan trọng của tiếng nói. Mơ hình tính tốn các hệ số MFCC được mơ tả như hình 4.7.

Một phần của tài liệu Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh (Trang 62 - 65)