Bài 5: Chỉ mục và tìm kiếm âm thanh Tiệm cận tìm kiếm dữ liệu âm thanh theo tên tệp Phân lớp âm thanh thành vài loại chung như tiếng nói, âm nhạc trưng trong câu truy vấn và đặc trưng
Trang 1Hà Nội - 2005/14
Bài 5
PGS.TS Đặng Văn Đức dvduc@ioit.ac.vn
Trang 2Bài 5: Chỉ mục và tìm kiếm âm thanh
Nội dung
dụng quan hệ giữa âm thanh và các media khác
2/45
Trang 3Multimedia Query Engine
Document Index Image Index Audio Index Video Index
3/45
Trang 5pressure wave
Microphone Discrete
digital samples
00111010101111100001101011
5/45
Trang 6Giới thiệu
dvduc-2005/14
Bài 5: Chỉ mục và tìm kiếm âm thanh
Câu truy vấn Âm thanh
Âm thanh truy vấn
Off-line On-line
Đối sánh (tính toán mức độ tương đồng) 6/45
Trang 7Bài 5: Chỉ mục và tìm kiếm âm thanh
Các tiệm cận tìm kiếm dữ liệu âm thanh
Loại âm thanh: Tiếng nói, âm nhạc, nhiễu
Tâm trạng: Buồn, vui
Phụ thuộc chủ quan khi mô tả âm thanh -> không thỏa mãn yêu
cầu cụ thể của người sử dụng
Giải pháp đơn giản là đối sánh các giá trị mẫu -> không khả thi
Trên cơ sở đối sánh các đặc trưng trích chọn từ âm thanh
7/45
Trang 8Bài 5: Chỉ mục và tìm kiếm âm thanh
Tiệm cận tìm kiếm dữ liệu âm thanh
theo tên tệp
Phân lớp âm thanh thành vài loại chung như tiếng nói, âm nhạc
trưng trong câu truy vấn và đặc trưng trong CSDL
8/45
Trang 9Trích trọn đặc trưng âm thanh
Tín hiệu trong miền thời gian chứa đựng quá nhiều dữ liệu dư
thừa trong việc phân lớp âm thanh
việc phân lớp âm thanh phục vụ tìm kiếm
phân lớp âm thanh trong MMDBMS
dvduc-2005/14
Bài 5: Chỉ mục và tìm kiếm âm thanh
9/45
Trang 10Bài 5: Chỉ mục và tìm kiếm âm thanh
2 Thuộc tính và đặc trưng âm thanh
Trong miền thời gian (thời gian - biên độ)
Trong miền tần số (tần số - âm lượng)
hai loại biểu diễn này.
Kỹ thuật trình diễn tín hiệu cơ bản: tín hiệu được biểu diễn như
biên độ biến đổi theo thời gian
Im lặng (câm) được biểu diễn bởi giá trị 0
Giá trị tín hiệu có thể âm hay dương phụ thuộc vào áp suất âm thanh cao hơn hay thấp hơn áp suất cân bằng khi im lặng.
Với 16 bít mã hóa mẫu audio: Giá trị tín hiệu sẽ trong khoảng từ 32767 đến
-32767.
10/45
Trang 11Bài 5: Chỉ mục và tìm kiếm âm thanh
2.1 Đặc trưng âm thanh trong miền thời gian
Trang 12Bài 5: Chỉ mục và tìm kiếm âm thanh
Đặc trưng âm thanh trong miền thời gian
N – Tổng số mẫu trong đoạn âm thanh x(n) - giá trị của mẫu n
12/45
N
n
x E
N n
∑−
=
=
1 0
2
) (
Trang 13Bài 5: Chỉ mục và tìm kiếm âm thanh
Đặc trưng âm thanh trong miền thời gian
Chia tín hiệu thành các frames, mỗi frame dài N mẫu
N – Tổng số mẫu trong frame
m – Mẫu thử thứ m w(n) – Hàm cửa sổ thời gian ngắn
m x n w n m E
,0
10
,
1)
w R
otherwise
0,
10
1
2cos46,054,0)
Trang 14Đặc trưng âm thanh trong miền thời gian
Qua thực nghiệm cho biết sự biến thiên năng lượng trung bình
của đoạn âm thanh được nhận biết rõ ràng hơn giá trị chính xác của chúng
và âm nhạc
Tính năng lượng trung bình STE cho các frames (cửa sổ) 20 ms
Trượt frame đi 10 ms
Tính LSTER cho các đoạn âm thanh kích thước 1s.
dvduc-2005/14
Bài 5: Chỉ mục và tìm kiếm âm thanh
14/45
Trang 15Đặc trưng âm thanh trong miền thời gian
LSTER được xác định bởi tỷ lệ tổng số các frames mà nó có năng
lượng thời gian ngắn (STE) nhỏ hơn 0,5 lần STE trung bình trong cửa sổ 1s, như sau:
N – tổng số frames
STE(n) là năng lượng trung bình của frame thứ n
là STE trung bình trong cửa sổ 1s âm thanh
Tiếng nói có LSTER trong khoảng 0,15 đến 0,5
Âm nhạc có LSTER có giá trị thấp hơn 0,15
0
STE N
LSTER
STE
Trang 16Bài 5: Chỉ mục và tìm kiếm âm thanh
Đặc trưng âm thanh trong miền thời gian
Chỉ ra tần số biến đổi dấu tín hiệu hay tổng số lần tín hiệu thay
đổi dấu của đoạn âm thanh (tần số trung bình của tín hiệu)
sgn s(n) = 1 nếu s(n) dương, sgn s(n) = -1 nếu s(n) có giá trị âm
16/45
N
n s n
s ZCR
N
n
2
| ) 1 (
sgn )
( sgn
Trang 17Đặc trưng âm thanh trong miền thời gian
được nhận biết rõ ràng hơn giá trị chính xác của chúng
dụng để phân biệt tiếng nói và âm nhạc
Tính ZCR cho các frames (cửa sổ) 20 ms
Trượt frame đi 10 ms
HZCRR được tính cho các đoạn
âm thanh kích thước 1s.
dvduc-2005/14
Bài 5: Chỉ mục và tìm kiếm âm thanh
17/45
Trang 18Đặc trưng âm thanh trong miền thời gian
cao hơn 1.5 lần ZCR trung bình trong cửa sổ 1s
Bài 5: Chỉ mục và tìm kiếm âm thanh
(IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, VOL 10, NO 7, OCT 2002)
1 ) (
ZCR N
HZCRR
ZCR
Trang 19Short time Energy and Zero-crossing rate
dvduc-2005/14
Bài 5: Chỉ mục và tìm kiếm âm thanh
19/45
Trang 20Bài 5: Chỉ mục và tìm kiếm âm thanh
Đặc trưng âm thanh trong miền thời gian
Tỷ lệ câm được tính bằng tỷ lệ giữa tổng chu kỳ câm và tổng độ
dài của đoạn âm thanh
20/45
Trang 212.2 Đặc trưng âm thanh trong miền tần số
được các thành phần tần số và phân bổ tần số của tín hiệu âm thanh
Tín hiệu được biểu diễn như sự biến đổi của biên độ theo tần số
(chỉ ra năng lượng tại các tần số khác nhau)
Trang 22Bài 5: Chỉ mục và tìm kiếm âm thanh
Đặc trưng trong miền tần số
Trang 23Ví dụ tín hiệu âm thanh trong miền tần số
dvduc-2005/14
Bài 5: Chỉ mục và tìm kiếm âm thanh
Musical Instrument Pure tone
23/45
Trang 24Phổ âm thanh
Khi N rất lớn gặp khó khăn khi tính DFT
n
jn k
e n x k
N
k k
1 )
k
jn k
e k
X N
n
Trang 25Bài 5: Chỉ mục và tìm kiếm âm thanh
Đặc trưng âm thanh trong miền tần số
Từ biểu đồ phổ tín hiệu dễ dàng nhận thấy phân bổ tín hiệu theo
các thành phần tần số
Âm nhạc thường có các thành phần tần số cao hơn tiếng nói
Khải niệm “cao”, “thấp” phụ thuộc vào ứng dụng cụ thể
Tín hiệu tiếng nói ít khi vượt qua 7kHz
Băng tần thấp: Chứa các thành phần tần số dưới 7kHz
Băng tần cao: Các thành phần có từ 7kHz trở lên
mẫu trong bang
lượng là trọng tâm phổ (Spectral centroid - Brightness)
25/45
Trang 26Bài 5: Chỉ mục và tìm kiếm âm thanh
Đặc trưng âm thanh trong miền tần số
n – Bin thứ n x(n) – Biên độ của bin n f(n) – Trọng tâm tần số của bin n
100
200300400
2 4 6 8
num+=amps[i]*freqs[i];
den+=amps[i];
} return(num/den);
)(
)()(
N n
N n
n x
n x n f Centroid
Trang 27Bài 5: Chỉ mục và tìm kiếm âm thanh
Đặc trưng âm thanh trong miền tần số
Băng thông chỉ ra dải tần số của âm thanh
Tín hiệu nhạc thường có băng thông cao hơn tín hiệu tiếng nói
Hiệu của tần số cao nhất và tần số thấp nhất của các thành phần phổ khác 0
Thành phần phổ khác 0 là thành phần có giá trị ít nhất là 3dB trên mức câm.
Thuộc tính cảm nhận các tần số âm thanh còn được gọi là pitch.
27/45
Trang 28Bài 5: Chỉ mục và tìm kiếm âm thanh
Đặc trưng âm thanh trong miền tần số
Trong âm thanh gọi là điều hòa khi các thành phần phổ là số lần
nguyên của tần số thấp nhất (tần số cơ bản) Thí dụ: f, 2f, 3f
28/45
Trang 29Bài 5: Chỉ mục và tìm kiếm âm thanh
2.3 Ảnh phổ
biểu diễn đơn giản của tín hiệu âm thanh.
Biến đổi short-time Fourier là phương pháp biến đổi tín hiệu từ
miền thời gian sang miền thời gian-tần số
Bản chất là biến đổi Fourier trong cửa sổ hữu hạn
Trang 30độ xám, cường độ lớn hơn biểu diễn bởi độ xám cao hơn.
Có thể xác định tính xuất hiện đều của một vài thành phần tần số
từ ảnh phổ tín hiệu
30/45
Trang 31Bài 5: Chỉ mục và tìm kiếm âm thanh
Thí dụ: Phổ và ảnh phổ
1 Hai ảnh phổ 0.3 giây đầu và 0.3 giây cuối đoạn âm thanh.
2 Ảnh phổ: Thời gian theo trục x, tần số theo trục y, mầu ảnh chỉ ra cường
độ âm thanh theo dB (xanh – yếu, đỏ - mạnh)
3 Điều hòa xuất hiện như các đường thẳng nằm ngang.
4 Năng lượng của mỗi điều hòa đều tăng, do vậy âm thanh càng to hơn.
31/45
Trang 322.4 Đặc trưng âm thanh MFCC
đoạn âm thanh.
hình hóa phân bổ năng lượng phổ
gian ngắn của tín hiệu âm thanh.
âm thanh) và trong nhận dạng tiếng nói.
dvduc-2005/14
Bài 5: Chỉ mục và tìm kiếm âm thanh
32/45
Trang 33Đặc trưng âm thanh MFCC
Trang 34Bài 5: Chỉ mục và tìm kiếm âm thanh
Các bước tính MFCC
cường tín hiệu tại tấn số cao (>1KHz) Tiếng nói suy giảm và tai người ít nhạy cảm hơn ở tần số cao
Lập cửa sổ tín hiệu (20-30 ms), vùng gối lên nhau 10-12 ms
Biến đổi Fourier rời rạc cửa sổ tín hiệu
Lọc theo thang tần số Mel (Mel-frequency bandpass filter): Mô
phỏng tính phi tuyến của sự phản ứng tai người đối với các thành phần tần số khác nhau (<1 KHz - tuyến tính, >1Khz - loga)
Tính loga giá trị năng lượng (logarit of filter energies): “Nén” các
giá trị năng lượng về miền giá trị hẹp hơn
quan của các giá trị gần nhau
34/45
) 700
1 ( log 2595 )
Mel = +
Trang 35Đặc trưng âm thanh MFCC
của chúng như nhau
kHz
dvduc-2005/14
Bài 5: Chỉ mục và tìm kiếm âm thanh
35/45
Trang 36Bài 5: Chỉ mục và tìm kiếm âm thanh
3 Phân lớp âm thanh
Features Speech Music
Bandwidth 0 – 7 kHz 0 – 20 kHz Spectral centroid Low High
Silence ratio High Low Zero-crossing More variable Less variable
36/45
Trang 37Bài 5: Chỉ mục và tìm kiếm âm thanh
Phân lớp âm thanh
tiếng nói và âm nhạc
Phân lớp trên cơ sở véctơ
đặc trưng hay trên cơ sở hệ
số MFCC, LPCC, PLP…
High silence ratio?
High ZCR variability?
Trang 38Bài 5: Chỉ mục và tìm kiếm âm thanh
4 Nhận dạng tiếng nói
đổi tín hiệu tiếng nói thành văn bản.
đặc trưng của mọi đơn vị tiếng nói
Trong quá trình nhận dạng, so sánh véctơ đặc trưng của tiếng
nói vào với các véctơ đặc trưng được thu thập trong quá trình huấn luyện để xác định đơn vị tiếng nói ở đầu ra
38/45
Trang 39Bài 5: Chỉ mục và tìm kiếm âm thanh
Mô hình nhận dạng tiếng nói
Tiền xử lý trích chọn đặc trưng
Mô hình hóa ngữ âm
Tiền xử lý và trích chọn đặc trưng
Tìm kiếm và đối sánh
Các mô hình
âm vị
Từ điển và ngữ pháp
Tiếng nói huấn luyện
Véctơ đặc trưng Các từ tương ứng
với tiếng nói huấn luyện
Tiến trình huấn luyện Tiến trình tìm kiếm
Tiếng nói vào
Véctơ đặc trưng
Dãy từ
CSDL nhận dạng
39/45
Trang 40Bài 5: Chỉ mục và tìm kiếm âm thanh
Nhận dạng tiếng nói
Các đặc trưng như tần số, độ dài và biên độ của âm vị tiếng nói
phụ thuộc vào người nói, thời gian nói
Khó tách âm vị từ tiếng nói liên tục
Các thành phần tần số của âm vị thay đổi theo vị trí của nó
trong từ và các phụ âm xung quanh
Mạng nơron nhân tạo (Artificial Neural Networks - ANN)
40/45
Trang 41Bài 5: Chỉ mục và tìm kiếm âm thanh
5 Chỉ số hóa và tìm kiếm âm nhạc
Được biểu diễn bởi tập các lệnh hay thuật toán
trích chọn đặc trưng từ tín hiệu âm thanh
Tìm kiếm âm thanh trên cơ sở tập các đặc trưng trích chọn
Âm lượng, độ cao, độ trong, băng thông và hòa âm
Biểu diễn độ cao của nốt nhạc bới xâu ký tự, sau đó thực hiện
tìm kiếm tương tự
41/45
Trang 42Bài 5: Chỉ mục và tìm kiếm âm thanh
5 Quan hệ âm thanh với media khác
Phân đoạn tiếng nói để chỉ mục và tìm kiếm video tương ứng.
tiện
Câu truy vấn hình thành trên cơ sở media đơn giản và có ý nghĩa nhất.
Hệ thống tìm kiếm và trình diễn mọi thông tin khác liên quan.
42/45
Trang 43Bài 5: Chỉ mục và tìm kiếm âm thanh
6 Kết luận
âm thanh
43/45
Trang 44Câu hỏi ôn tập
hai tệp âm thanh bằng tính tổng sự khác nhau giữa các mẫu tương ứng của hai tệp này?
thanh trên cơ sở nội dung.
dựa trên phổ của nó?
trong MMDBMS mà các anh/chị biết.
dvduc-2005/14
Bài 5: Chỉ mục và tìm kiếm âm thanh
44/45
Trang 45Câu hỏi?