Xử lý âm thanh

Một phần của tài liệu Nhận dạng tiếng nói tiếng việt bằng phương pháp học sâu (Trang 40 - 43)

2.3.1. Các đặc trưng chính của âm thanh

Thực tế, trích chọn đặc trưng đóng vai trị rất quan trọng trong vấn đề phân lớp âm thanh. Chúng đại diện cho các đặc điểm quan trọng của các loại tín hiệu âm thanh khác nhau. Để nâng cao tính chính xác của việc phân lớp âm thanh, ta cần phải lựa chọn các đặc trưng tốt. Đa số các phương pháp, giải thuật trích xuất chọn đặc trưng

41

âm thanh hiện nay đều xem các đặc trưng sau đây là hiệu quả để phân lớp và phân loại âm thanh.

Các đặc trưng âm thanh trong miền thời gian

Biểu diễn trong miền thời gian hay thời gian biên độ là kỹ thuật trình diễn tín hiệu cơ bản nhất, trong đó tín hiệu được biểu diễn như biên độ biến đổi theo thời gian.

Im lặng (câm), được biểu diễn bởi giá trị 0. Giá trị của tín hiệu có thể âm hoặc dương phụ thuộc vào áp suất âm thanh cao hơn hoặc thấp hơn áp suất cân bằng khi im lặng.

Ngồi ra ta có thể tính được năng lượng trung bình, tốc độ vượt qua 0 (Zero crossing rate) và tỷ lệ câm (silense ratio).

Năng lượng trung bình

Năng lượng trung bình chỉ ra âm lượng (loudness) của tín hiệu âm thanh. Có nhiều cách để tính tốn, trong đó cách tính theo cơng thức 2.30 dưới dây là một điển hình:

𝐸 = ∑ 𝑥(𝑛)2

𝑁 𝑁−1

𝑁=0 (2.30)

Trong đó, E là năng lượng trung bình của đoạn âm thanh, N là tổng số mẫu trong đoạn audio, x(n) là giá trị mẫu N.

Zero Crossing rate

Tốc độ vượt qua 0 chỉ ra tần số thay đổi của dấu biên độ tín hiệu. Nói cách khác nó chỉ ra tần số trung bình của tín hiệu. Tốc độ vượt qua 0 được tính như cơng thức 2.31 bên dưới:

𝑍𝐶 = ⁡ ∑ |𝑠𝑔𝑛⁡𝑥(𝑛)−𝑠𝑔𝑛⁡𝑥(𝑛−1)|

2𝑁 𝑁

𝑁=1 (2.31)

Trong đó, sgn x(n) là dấu của x(n) và có giá trị 1 nếu x(n) dương, giá trị -1 nếu x(n) có giá trị âm.

42

Tỉ lệ câm chỉ ra kích thước đoạn âm thanh câm. Câm được định nghĩa như chu kỳ trong đó giá trị biên độ tuyệt đối của một số mẫu nhỏ hơn ngưỡng nào đó. Có 2 loại ngưỡng: ngưỡng biên độ và ngưỡng thời gian.

Với ngưỡng biên độ, mẫu được xem là câm khi biên độ của nó nhỏ hơn ngưỡng biên độ. Chỉ một mẫu câm không được xem như chu kỳ câm. Chỉ khi tổng các mẫu câm liên tục vượt qua ngưỡng thời gian nào đó thì các mẫu này hình thành chu kỳ câm (silence period). Tỷ lệ câm được tính bằng tỷ lệ giữa tổng chu kỳ câm và tổng độ dài của đoạn âm thanh.

2.3.2. Các phương pháp xử lý âm thanh

Âm thanh là sự rung động truyền qua khơng khí hoặc truyền qua bất kỳ vật trung gian nào, những rung động này có thể nghe được khi chúng đi đến tai chúng ta. Âm thanh hình thành bởi sự rung động nhất quán và khơng bị phá vỡ.

Thiết bị đầu tiên có thể bắt được sóng âm được phát minh bởi Édouard-Léon Scott de Martinville năm 1957. Sau đó Phonautograph vẽ ra các sóng âm thanh thành một đường trên giấy, với những sóng này thơng qua một số đặc trưng được trích xuất mà chúng có thể phân loại âm thanh thành nhiều lớp hoặc danh mục [7].

Lấy một ví dụ như khi chúng ta nghe bất kỳ âm thanh nào đó não của chúng ta bắt đầu xử lý âm thanh đó và phân loại âm thanh giống như chúng ta đang dự đoán đây là giọng nói của phụ nữ mà chúng ta khơng cần quan tâm người nói là ai. Điều đó là bởi vì chúng ta biết dải tần số nào thuộc về loại âm thanh nào, nhưng thách thức lớn nhất đó là trích xuất đặc trưng.

Tiếng nói là cách giao tiếp điển hình nhất giữa con người. Tiếng nói cũng mang theo nhiều thơng tin liên quan đến người đang nói. Để nhận tiếng nói này của người nào, ln có những đặc trưng tồn tại trong tín hiệu của tiếng nói. Những đặc trưng được trích xuất này sẽ hữu ích trong việc huấn luyện mơ hình nhận dạng tiếng nói.

Trong xử lý âm thanh, trích xuất âm thanh được xem là xương sống. Tầm quan trọng của kỹ thuật trích xuất đặc trưng là không thể phủ nhận trong nhận dạng âm thanh.

43

Có rất nhiều kỹ thuật khác nhau trong trích xuất đặc trưng âm thanh được trình bày trong nhiều tài liệu khác nhau được sử dụng trong nhận dạng và phát hiện âm thanh. Mỗi kỹ thuật có những ưu điểm và nhược điểm riêng tuỳ thuộc vào môi trường âm thanh [7].

Một số kỹ thuật trích xuất đặc trưng là:

➢ Mel-frequency Cepstral Coefficients (MFCC) ➢ Perceptual Linear Predictive (PLP)

➢ Linear Prediction Coefficient (LPC) ➢ Relative Spectral Processing (RASTA)

➢ Linear Prediction Cepstral Coefficient (LPCC)

Một phần của tài liệu Nhận dạng tiếng nói tiếng việt bằng phương pháp học sâu (Trang 40 - 43)

Tải bản đầy đủ (PDF)

(96 trang)