Tạo vector đặc trưng từ vector V(F0)

Một phần của tài liệu Nghiên cứu các đặc trưng tiếng Việt áp dụng vào nhận dạng tiếng nói tiếng Việt (Trang 80 - 81)

Trong nhận dạng tiếng Trung Quốc (Mandarin), [14], Yang et all định nghĩa vector đặc trưng như sau:

trong đó ftlà tần số cơ bản ở khung tín hiệu thứ t.

Thành phần thứ nhất cho biết thông tin về độ dốc của đường vận động tần số

cơ bản, thành phần thứ hai thể hiện độ cao của tần số cơ bản. Kết quả nhận dạng thu

được của Yang et all có độ chính xác khoảng 96,5%. Nhưng nếu lấy các đặc trưng này áp dụng cho hệ nhận dạng tiếng việt thì kết quả thu được rất thấp, (~ 70%).

Chúng ta có thể thấy được sự khác biệt về thanh điệu giữa tiếng Việt và tiếng Trung Quốc:

Thanh điệu của tiếng việt gồm 6 thanh, trong khi đó tiếng trung quốc chỉ có 5 thanh

Đường nét của thanh điệu tiếng Trung Quốc rất đơn giản[14].

Đường nét của thanh ngã tiếng Việt rất phức tạp, có biến đổi rất quan trọng giữa âm vực cao và âm vực thấp.

Từ những kết quả nghiên cứu về thanh điệu tiếng việt, và kết quả trích tần số

cơ bản F0 chúng tôi đề nghị vector đặc trưng có 10 thành phần như sau:

trong đó:

- ft+1là tần số cơ bản tại khung tín hiệu t+1

- etlà năng lượng tại khung tín hiệu t

- emaxlà năng lượng cực đại trong phần hữu thanh

- d là chiều dài của phần hữu thanh (tính bằng số khung)

- fmaxlà tần số cơ bản cực đại trong vùng hữu thanh

- fminlà tần số cơ bản cực tiểu trong vùng hữu thanh

- fstlà tần số cơ bản ở khung đầu tiên trong vùng hữu thanh

- fedlà tần số cơ bản ở khung cuối cùng trong vùng hữu thanh

Một phần của tài liệu Nghiên cứu các đặc trưng tiếng Việt áp dụng vào nhận dạng tiếng nói tiếng Việt (Trang 80 - 81)

Tải bản đầy đủ (PDF)

(116 trang)