2.
2.3 Xử lý âm thanh
2.3.1. Các đặc trƣng chính của âm thanh
Trong thực tế, chích trọn đặc trƣng đóng vai trị rất quan trọng trong vấn đề phân lớp âm thanh. Chúng cho thấy đặc trƣng quan trọng của các loại tín hiệu âm thanh khác nhau. Để nâng cao tính chính xác của việc phân lớp âm thanh, ta cần phải lựa chọn các đặc trƣng tốt. Đa số các phƣơng pháp, giải thuật trích xuất chọn đặc trƣng âm thanh hiện nay đều xem các đặc trƣng sau đây là hiệu quả để phân lớp và phân đoạn âm thanh.
8
CHƢƠNG 2: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU CÓ LIÊN QUAN
Các đặc trƣng âm thanh trong miền thời gian
Biểu diễn trong miền thời gian hay thời gian – biên độ là kỹ thuật trình diễn tín hiệu cơ bản nhất, trong đó tín hiệu đƣợc biểu diễn nhƣ biên độ biến đổi theo thời gian [2]. Im lặng (câm) đƣợc biểu diễn bởi giá trị 0. Giá trị tín hiệu có thể âm hay dƣơng phụ thuộc vào áp suất âm thanh cao hơn hoặc thấp hơn áp suất cân bằng khi im lặng.
Ngồi ra ta dễ dàng có thể tính đƣợc năng lƣợng trung bình, tốc độ vƣợt qua 0 (Zero crossing rate) và tỷ lệ câm (silence ratio).
Năng lƣợng trung bình
Năng lƣợng trung bình chỉ ra âm lƣợng (loudness) của tín hiệu âm thanh. Có nhiều cách để tính nó. Cách tính nhƣ cơng thức 2.7 dƣới đây:
∑ ( )
(2.7)
Trong đó, E là năng lƣợng trung bình của đoạn âm thanh, N là tổng số mẫu trong đoạn audio, x(n) là giá trị của mẫu N.
Zero crossing rate
Tốc độ vƣợt qua 0 chỉ ra tần số thay đổi của dấu biên độ tín hiệu. Nói cách khác nó chỉ ra tần số trung bình của tín hiệu. Tốc độ vƣợt qua 0 đƣợc tính nhƣ cơng thức 2.8 dƣới đây:
CHƢƠNG 2: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU CÓ LIÊN QUAN
∑ ( ) ( )
(2.8) Trong đó, sgn x (n) là dấu của x(n) và có giá trị 1 nếu x(n) dƣơng, giá trị -1 nếu x(n) có giá trị âm.
Silence ratio
Tỉ lệ câm chỉ ra kích thƣớc đoạn âm thanh câm. Câm đƣợc định nghĩa nhƣ chu kỳ trong đó giá trị biên độ tuyệt đối của một số mẫu nhỏ hơn ngƣỡng nào đó. Có 2 loại ngƣỡng: ngƣỡng biên độ và ngƣỡng thời gian.
Với ngƣỡng biên độ, mẫu đƣợc xem là câm khi biên độ của nó nhỏ hơn ngƣỡng biên độ. Chỉ một mẫu câm không đƣợc xem nhƣ chu kỳ câm. Chỉ khi tổng các mẫu câm liên tục vƣợt qua ngƣỡng thời gian nào đó thì các mẫu này hình thành chu kỳ câm (silence period). Tỷ lệ câm đƣợc tính bằng tỷ lệ giữa tổng chu kỳ câm và tổng độ dài của đoạn âm thanh.
2.3.2. Các phƣơng pháp xử lý âm thanh
Âm thanh là sự rung động truyền qua khơng khí hoặc truyền qua bất kỳ vật trung gian nào, những rung động này có thể nghe đƣợc khi chúng đi đến tai chúng ta. Âm thanh hình thành bởi sự rung động nhất quán và không bị phá vỡ.
Thiết bị đầu tiên có thể bắt đƣợc sóng âm đƣợc phát minh bởi Édouard-Léon Scott de Martinville năm 1957. Sau đó Phonautograph vẽ ra các sóng âm thanh thành một đƣờng trên giấy, với những sóng này thơng qua một số đặc trƣng đƣợc trích xuất mà chúng có thể phân loại âm thanh thành nhiều lớp hoặc danh mục [3].
Lấy một ví dụ nhƣ khi chúng ta nghe bất kỳ âm thanh nào đó não của chúng ta bắt đầu xử lý âm thanh đó và phân loại âm thanh giống nhƣ chúng ta đang dự đốn đây là giọng nói của phụ nữ mà chúng ta khơng cần quan tâm ngƣời nói là ai. Điều đó là bởi
CHƢƠNG 2: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU CĨ LIÊN QUAN
vì chúng ta biết dải tần số nào thuộc về loại âm thanh nào, nhƣng thách thức lớn nhất đó là trích xuất đặc trƣng.
Tiếng nói là cách giao tiếp điển hình nhất giữa con ngƣời. Tiếng nói cũng mang theo nhiều thông tin liên quan đến ngƣời đang nói. Để nhận tiếng nói này của ngƣời nào, ln có những đặc trƣng tồn tại trong tín hiệu của tiếng nói. Những đặc trƣng đƣợc trích xuất này sẽ hữu ích trong việc huấn luyện mơ hình nhận dạng tiếng nói. Trong xử lý âm thanh, trích xuất âm thanh đƣợc xem là xƣơng sống. Tầm quan trọng của kỹ thuật trích xuất đặc trƣng là không thể phủ nhận trong nhận diện âm thanh.
Có rất nhiều kỹ thuật khác nhau trong trích xuất đặc trƣng âm thanh đƣợc trình bày trong nhiều tài liệu khác nhau đƣợc sử dụng trong nhận diện và phát hiện âm thanh. Mỗi kỹ thuật có những ƣu điểm và nhƣợc điểm riêng tuỳ thuộc vào môi trƣờng âm thanh [3].
Một số kỹ thuật trích xuất đặc trƣng là:
Mel-frequency Cepstral Coefficients (MFCC)
Perceptual Linear Predictive (PLP)
Linear Prediction Coefficient (LPC)
Relative Spectral Processing (RASTA)
Linear Prediction Cepstral Coefficient (LPCC)