Trích F0 từ tín hiệu tiếng nói (pitch extraction)

Một phần của tài liệu Nghiên cứu các đặc trưng tiếng Việt áp dụng vào nhận dạng tiếng nói tiếng Việt (Trang 78 - 80)

Như đã đề cập ở phần (I.2), thanh điệu là một đặc trưng quan trọng của tiếng Việt. Để xây dựng một hệ thống nhận dạng tiếng Việt hoàn chỉnh thì nhận dạng thanh

điệu tiếng việt là cần thiết. Bởi vì đa số các hệ nhận dạng tiếng Việt hiện nay đều chưa giải quyết được vấn đề thanh điệu, dễ nhận dạng nhầm các từ đồng âm, ví dụ: hai, hài, hái, hải, hãi, hại.

Hình 5.5: Tín hiu tun hoàn ca nguyên âm [o] trong tiếng ‘hi’

Hình trên thể hiện một mẫu tuần hoàn, chứa một đỉnh lớn và 9 đỉnh nhỏ. Mẫu này cứ lặp lại cứ mỗi 9 ms. Hay nói cách khác một chu kỳ là 9 ms. Do đó mất khoảng 111 chu kỳ trong 1 giây (một giây bằng 1.000 ms ). Ta nói tần số cơ bản có giá trị là 111 chu kỳ trên một giây, hay nói cách khác tần số cơ bản là 111 Hz.

Các phương pháp dò tìm tần số cơ bản đãđược trình bàyở phần (II.3.4).Trong luận văn này chúng tôi sử dụng phương pháp AMDF (Average Magnitude Difference Function).

Khung tín Tín hiệu sau khi qua các bước tiền xử lý được tiến hành trích tần số

cơ bản F0

Thông tin về thanh điệu tập trung chủ yếu trên phần vần của âm tiết [2].Tuy nhiên, việc dò tìm phần vần gặp rất nhiều khó khăn khi âm đầu là âm hữu thanh. Cũng như trong việc tìm tần số cơ bản rất khó phân biệt được phần âm đầu hữu thanh và nguyên âm theo sau đó. Vì vậy, cách giải quyết của chúng tôi là trích tần số cơ bản toàn bộ phần hữu thanh.

s(n) là tín hiệu tiếng nói T là hàm trích tần số cơ bản

với M là số khung tín hiệu (trong chương trình demo chúng tôi chọn khung tín hiệu là 10ms)

Một phần của tài liệu Nghiên cứu các đặc trưng tiếng Việt áp dụng vào nhận dạng tiếng nói tiếng Việt (Trang 78 - 80)

Tải bản đầy đủ (PDF)

(116 trang)