Các phương pháp xử lý âm thanh

Một phần của tài liệu Nhận dạng tiếng nói tiếng việt bằng phương pháp học sâu (Trang 42 - 43)

Âm thanh là sự rung động truyền qua không khí hoặc truyền qua bất kỳ vật trung gian nào, những rung động này có thể nghe được khi chúng đi đến tai chúng ta. Âm thanh hình thành bởi sự rung động nhất quán và không bị phá vỡ.

Thiết bị đầu tiên có thể bắt được sóng âm được phát minh bởi Édouard-Léon Scott de Martinville năm 1957. Sau đó Phonautograph vẽ ra các sóng âm thanh thành một đường trên giấy, với những sóng này thông qua một số đặc trưng được trích xuất mà chúng có thể phân loại âm thanh thành nhiều lớp hoặc danh mục [7].

Lấy một ví dụ như khi chúng ta nghe bất kỳ âm thanh nào đó não của chúng ta bắt đầu xử lý âm thanh đó và phân loại âm thanh giống như chúng ta đang dự đoán đây là giọng nói của phụ nữ mà chúng ta không cần quan tâm người nói là ai. Điều đó là bởi vì chúng ta biết dải tần số nào thuộc về loại âm thanh nào, nhưng thách thức lớn nhất đó là trích xuất đặc trưng.

Tiếng nói là cách giao tiếp điển hình nhất giữa con người. Tiếng nói cũng mang theo nhiều thông tin liên quan đến người đang nói. Để nhận tiếng nói này của người nào, luôn có những đặc trưng tồn tại trong tín hiệu của tiếng nói. Những đặc trưng được trích xuất này sẽ hữu ích trong việc huấn luyện mô hình nhận dạng tiếng nói.

Trong xử lý âm thanh, trích xuất âm thanh được xem là xương sống. Tầm quan trọng của kỹ thuật trích xuất đặc trưng là không thể phủ nhận trong nhận dạng âm thanh.

43

Có rất nhiều kỹ thuật khác nhau trong trích xuất đặc trưng âm thanh được trình bày trong nhiều tài liệu khác nhau được sử dụng trong nhận dạng và phát hiện âm thanh. Mỗi kỹ thuật có những ưu điểm và nhược điểm riêng tuỳ thuộc vào môi trường âm thanh [7].

Một số kỹ thuật trích xuất đặc trưng là:

➢ Mel-frequency Cepstral Coefficients (MFCC) ➢ Perceptual Linear Predictive (PLP)

➢ Linear Prediction Coefficient (LPC) ➢ Relative Spectral Processing (RASTA)

➢ Linear Prediction Cepstral Coefficient (LPCC)

Một phần của tài liệu Nhận dạng tiếng nói tiếng việt bằng phương pháp học sâu (Trang 42 - 43)

Tải bản đầy đủ (PDF)

(96 trang)