1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Bài giảng cơ sở dữ liệu chỉ mục và tìm kiếm âm thanh

45 1,3K 10

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 45
Dung lượng 2,49 MB

Nội dung

Bài 5: Chỉ mục và tìm kiếm âm thanh Tiệm cận tìm kiếm dữ liệu âm thanh theo tên tệp  Phân lớp âm thanh thành vài loại chung như tiếng nói, âm nhạc trưng trong câu truy vấn và đặc trưng

Trang 1

Hà Nội - 2005/14

Bài 5

PGS.TS Đặng Văn Đức dvduc@ioit.ac.vn

Trang 2

Bài 5: Chỉ mục và tìm kiếm âm thanh

Nội dung

dụng quan hệ giữa âm thanh và các media khác

2/45

Trang 3

Multimedia Query Engine

Document Index Image Index Audio Index Video Index

3/45

Trang 5

pressure wave

Microphone Discrete

digital samples

00111010101111100001101011

5/45

Trang 6

Giới thiệu

dvduc-2005/14

Bài 5: Chỉ mục và tìm kiếm âm thanh

Câu truy vấn Âm thanh

Âm thanh truy vấn

Off-line On-line

Đối sánh (tính toán mức độ tương đồng) 6/45

Trang 7

Bài 5: Chỉ mục và tìm kiếm âm thanh

Các tiệm cận tìm kiếm dữ liệu âm thanh

 Loại âm thanh: Tiếng nói, âm nhạc, nhiễu

 Tâm trạng: Buồn, vui

 Phụ thuộc chủ quan khi mô tả âm thanh -> không thỏa mãn yêu

cầu cụ thể của người sử dụng

 Giải pháp đơn giản là đối sánh các giá trị mẫu -> không khả thi

 Trên cơ sở đối sánh các đặc trưng trích chọn từ âm thanh

7/45

Trang 8

Bài 5: Chỉ mục và tìm kiếm âm thanh

Tiệm cận tìm kiếm dữ liệu âm thanh

theo tên tệp

 Phân lớp âm thanh thành vài loại chung như tiếng nói, âm nhạc

trưng trong câu truy vấn và đặc trưng trong CSDL

8/45

Trang 9

Trích trọn đặc trưng âm thanh

 Tín hiệu trong miền thời gian chứa đựng quá nhiều dữ liệu dư

thừa trong việc phân lớp âm thanh

việc phân lớp âm thanh phục vụ tìm kiếm

phân lớp âm thanh trong MMDBMS

dvduc-2005/14

Bài 5: Chỉ mục và tìm kiếm âm thanh

9/45

Trang 10

Bài 5: Chỉ mục và tìm kiếm âm thanh

2 Thuộc tính và đặc trưng âm thanh

Trong miền thời gian (thời gian - biên độ)

Trong miền tần số (tần số - âm lượng)

hai loại biểu diễn này.

 Kỹ thuật trình diễn tín hiệu cơ bản: tín hiệu được biểu diễn như

biên độ biến đổi theo thời gian

 Im lặng (câm) được biểu diễn bởi giá trị 0

 Giá trị tín hiệu có thể âm hay dương phụ thuộc vào áp suất âm thanh cao hơn hay thấp hơn áp suất cân bằng khi im lặng.

Với 16 bít mã hóa mẫu audio: Giá trị tín hiệu sẽ trong khoảng từ 32767 đến

-32767.

10/45

Trang 11

Bài 5: Chỉ mục và tìm kiếm âm thanh

2.1 Đặc trưng âm thanh trong miền thời gian

Trang 12

Bài 5: Chỉ mục và tìm kiếm âm thanh

Đặc trưng âm thanh trong miền thời gian

N – Tổng số mẫu trong đoạn âm thanh x(n) - giá trị của mẫu n

12/45

N

n

x E

N n

∑−

=

=

1 0

2

) (

Trang 13

Bài 5: Chỉ mục và tìm kiếm âm thanh

Đặc trưng âm thanh trong miền thời gian

 Chia tín hiệu thành các frames, mỗi frame dài N mẫu

N – Tổng số mẫu trong frame

m – Mẫu thử thứ m w(n) – Hàm cửa sổ thời gian ngắn

m x n w n m E

,0

10

,

1)

w R

otherwise

0,

10

1

2cos46,054,0)

Trang 14

Đặc trưng âm thanh trong miền thời gian

 Qua thực nghiệm cho biết sự biến thiên năng lượng trung bình

của đoạn âm thanh được nhận biết rõ ràng hơn giá trị chính xác của chúng

và âm nhạc

 Tính năng lượng trung bình STE cho các frames (cửa sổ) 20 ms

 Trượt frame đi 10 ms

 Tính LSTER cho các đoạn âm thanh kích thước 1s.

dvduc-2005/14

Bài 5: Chỉ mục và tìm kiếm âm thanh

14/45

Trang 15

Đặc trưng âm thanh trong miền thời gian

 LSTER được xác định bởi tỷ lệ tổng số các frames mà nó có năng

lượng thời gian ngắn (STE) nhỏ hơn 0,5 lần STE trung bình trong cửa sổ 1s, như sau:

 N – tổng số frames

 STE(n) là năng lượng trung bình của frame thứ n

 là STE trung bình trong cửa sổ 1s âm thanh

 Tiếng nói có LSTER trong khoảng 0,15 đến 0,5

 Âm nhạc có LSTER có giá trị thấp hơn 0,15

0

STE N

LSTER

STE

Trang 16

Bài 5: Chỉ mục và tìm kiếm âm thanh

Đặc trưng âm thanh trong miền thời gian

 Chỉ ra tần số biến đổi dấu tín hiệu hay tổng số lần tín hiệu thay

đổi dấu của đoạn âm thanh (tần số trung bình của tín hiệu)

sgn s(n) = 1 nếu s(n) dương, sgn s(n) = -1 nếu s(n) có giá trị âm

16/45

N

n s n

s ZCR

N

n

2

| ) 1 (

sgn )

( sgn

Trang 17

Đặc trưng âm thanh trong miền thời gian

được nhận biết rõ ràng hơn giá trị chính xác của chúng

dụng để phân biệt tiếng nói và âm nhạc

 Tính ZCR cho các frames (cửa sổ) 20 ms

 Trượt frame đi 10 ms

 HZCRR được tính cho các đoạn

âm thanh kích thước 1s.

dvduc-2005/14

Bài 5: Chỉ mục và tìm kiếm âm thanh

17/45

Trang 18

Đặc trưng âm thanh trong miền thời gian

cao hơn 1.5 lần ZCR trung bình trong cửa sổ 1s

Bài 5: Chỉ mục và tìm kiếm âm thanh

(IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, VOL 10, NO 7, OCT 2002)

1 ) (

ZCR N

HZCRR

ZCR

Trang 19

Short time Energy and Zero-crossing rate

dvduc-2005/14

Bài 5: Chỉ mục và tìm kiếm âm thanh

19/45

Trang 20

Bài 5: Chỉ mục và tìm kiếm âm thanh

Đặc trưng âm thanh trong miền thời gian

 Tỷ lệ câm được tính bằng tỷ lệ giữa tổng chu kỳ câm và tổng độ

dài của đoạn âm thanh

20/45

Trang 21

2.2 Đặc trưng âm thanh trong miền tần số

được các thành phần tần số và phân bổ tần số của tín hiệu âm thanh

 Tín hiệu được biểu diễn như sự biến đổi của biên độ theo tần số

(chỉ ra năng lượng tại các tần số khác nhau)

Trang 22

Bài 5: Chỉ mục và tìm kiếm âm thanh

Đặc trưng trong miền tần số

Trang 23

Ví dụ tín hiệu âm thanh trong miền tần số

dvduc-2005/14

Bài 5: Chỉ mục và tìm kiếm âm thanh

Musical Instrument Pure tone

23/45

Trang 24

Phổ âm thanh

 Khi N rất lớn gặp khó khăn khi tính DFT

n

jn k

e n x k

N

k k

1 )

k

jn k

e k

X N

n

Trang 25

Bài 5: Chỉ mục và tìm kiếm âm thanh

Đặc trưng âm thanh trong miền tần số

 Từ biểu đồ phổ tín hiệu dễ dàng nhận thấy phân bổ tín hiệu theo

các thành phần tần số

 Âm nhạc thường có các thành phần tần số cao hơn tiếng nói

 Khải niệm “cao”, “thấp” phụ thuộc vào ứng dụng cụ thể

 Tín hiệu tiếng nói ít khi vượt qua 7kHz

 Băng tần thấp: Chứa các thành phần tần số dưới 7kHz

 Băng tần cao: Các thành phần có từ 7kHz trở lên

mẫu trong bang

lượng là trọng tâm phổ (Spectral centroid - Brightness)

25/45

Trang 26

Bài 5: Chỉ mục và tìm kiếm âm thanh

Đặc trưng âm thanh trong miền tần số

n – Bin thứ n x(n) – Biên độ của bin n f(n) – Trọng tâm tần số của bin n

100

200300400

2 4 6 8

num+=amps[i]*freqs[i];

den+=amps[i];

} return(num/den);

)(

)()(

N n

N n

n x

n x n f Centroid

Trang 27

Bài 5: Chỉ mục và tìm kiếm âm thanh

Đặc trưng âm thanh trong miền tần số

 Băng thông chỉ ra dải tần số của âm thanh

 Tín hiệu nhạc thường có băng thông cao hơn tín hiệu tiếng nói

 Hiệu của tần số cao nhất và tần số thấp nhất của các thành phần phổ khác 0

 Thành phần phổ khác 0 là thành phần có giá trị ít nhất là 3dB trên mức câm.

Thuộc tính cảm nhận các tần số âm thanh còn được gọi là pitch.

27/45

Trang 28

Bài 5: Chỉ mục và tìm kiếm âm thanh

Đặc trưng âm thanh trong miền tần số

 Trong âm thanh gọi là điều hòa khi các thành phần phổ là số lần

nguyên của tần số thấp nhất (tần số cơ bản) Thí dụ: f, 2f, 3f

28/45

Trang 29

Bài 5: Chỉ mục và tìm kiếm âm thanh

2.3 Ảnh phổ

biểu diễn đơn giản của tín hiệu âm thanh.

Biến đổi short-time Fourier là phương pháp biến đổi tín hiệu từ

miền thời gian sang miền thời gian-tần số

 Bản chất là biến đổi Fourier trong cửa sổ hữu hạn

Trang 30

độ xám, cường độ lớn hơn biểu diễn bởi độ xám cao hơn.

Có thể xác định tính xuất hiện đều của một vài thành phần tần số

từ ảnh phổ tín hiệu

30/45

Trang 31

Bài 5: Chỉ mục và tìm kiếm âm thanh

Thí dụ: Phổ và ảnh phổ

1 Hai ảnh phổ 0.3 giây đầu và 0.3 giây cuối đoạn âm thanh.

2 Ảnh phổ: Thời gian theo trục x, tần số theo trục y, mầu ảnh chỉ ra cường

độ âm thanh theo dB (xanh – yếu, đỏ - mạnh)

3 Điều hòa xuất hiện như các đường thẳng nằm ngang.

4 Năng lượng của mỗi điều hòa đều tăng, do vậy âm thanh càng to hơn.

31/45

Trang 32

2.4 Đặc trưng âm thanh MFCC

đoạn âm thanh.

hình hóa phân bổ năng lượng phổ

gian ngắn của tín hiệu âm thanh.

âm thanh) và trong nhận dạng tiếng nói.

dvduc-2005/14

Bài 5: Chỉ mục và tìm kiếm âm thanh

32/45

Trang 33

Đặc trưng âm thanh MFCC

Trang 34

Bài 5: Chỉ mục và tìm kiếm âm thanh

Các bước tính MFCC

cường tín hiệu tại tấn số cao (>1KHz) Tiếng nói suy giảm và tai người ít nhạy cảm hơn ở tần số cao

 Lập cửa sổ tín hiệu (20-30 ms), vùng gối lên nhau 10-12 ms

 Biến đổi Fourier rời rạc cửa sổ tín hiệu

Lọc theo thang tần số Mel (Mel-frequency bandpass filter): Mô

phỏng tính phi tuyến của sự phản ứng tai người đối với các thành phần tần số khác nhau (<1 KHz - tuyến tính, >1Khz - loga)

Tính loga giá trị năng lượng (logarit of filter energies): “Nén” các

giá trị năng lượng về miền giá trị hẹp hơn

quan của các giá trị gần nhau

34/45

) 700

1 ( log 2595 )

Mel = +

Trang 35

Đặc trưng âm thanh MFCC

của chúng như nhau

kHz

dvduc-2005/14

Bài 5: Chỉ mục và tìm kiếm âm thanh

35/45

Trang 36

Bài 5: Chỉ mục và tìm kiếm âm thanh

3 Phân lớp âm thanh

Features Speech Music

Bandwidth 0 – 7 kHz 0 – 20 kHz Spectral centroid Low High

Silence ratio High Low Zero-crossing More variable Less variable

36/45

Trang 37

Bài 5: Chỉ mục và tìm kiếm âm thanh

Phân lớp âm thanh

tiếng nói và âm nhạc

 Phân lớp trên cơ sở véctơ

đặc trưng hay trên cơ sở hệ

số MFCC, LPCC, PLP…

High silence ratio?

High ZCR variability?

Trang 38

Bài 5: Chỉ mục và tìm kiếm âm thanh

4 Nhận dạng tiếng nói

đổi tín hiệu tiếng nói thành văn bản.

đặc trưng của mọi đơn vị tiếng nói

 Trong quá trình nhận dạng, so sánh véctơ đặc trưng của tiếng

nói vào với các véctơ đặc trưng được thu thập trong quá trình huấn luyện để xác định đơn vị tiếng nói ở đầu ra

38/45

Trang 39

Bài 5: Chỉ mục và tìm kiếm âm thanh

Mô hình nhận dạng tiếng nói

Tiền xử lý trích chọn đặc trưng

Mô hình hóa ngữ âm

Tiền xử lý và trích chọn đặc trưng

Tìm kiếm và đối sánh

Các mô hình

âm vị

Từ điển và ngữ pháp

Tiếng nói huấn luyện

Véctơ đặc trưng Các từ tương ứng

với tiếng nói huấn luyện

Tiến trình huấn luyện Tiến trình tìm kiếm

Tiếng nói vào

Véctơ đặc trưng

Dãy từ

CSDL nhận dạng

39/45

Trang 40

Bài 5: Chỉ mục và tìm kiếm âm thanh

Nhận dạng tiếng nói

 Các đặc trưng như tần số, độ dài và biên độ của âm vị tiếng nói

phụ thuộc vào người nói, thời gian nói

 Khó tách âm vị từ tiếng nói liên tục

 Các thành phần tần số của âm vị thay đổi theo vị trí của nó

trong từ và các phụ âm xung quanh

Mạng nơron nhân tạo (Artificial Neural Networks - ANN)

40/45

Trang 41

Bài 5: Chỉ mục và tìm kiếm âm thanh

5 Chỉ số hóa và tìm kiếm âm nhạc

 Được biểu diễn bởi tập các lệnh hay thuật toán

trích chọn đặc trưng từ tín hiệu âm thanh

 Tìm kiếm âm thanh trên cơ sở tập các đặc trưng trích chọn

 Âm lượng, độ cao, độ trong, băng thông và hòa âm

 Biểu diễn độ cao của nốt nhạc bới xâu ký tự, sau đó thực hiện

tìm kiếm tương tự

41/45

Trang 42

Bài 5: Chỉ mục và tìm kiếm âm thanh

5 Quan hệ âm thanh với media khác

 Phân đoạn tiếng nói để chỉ mục và tìm kiếm video tương ứng.

tiện

 Câu truy vấn hình thành trên cơ sở media đơn giản và có ý nghĩa nhất.

 Hệ thống tìm kiếm và trình diễn mọi thông tin khác liên quan.

42/45

Trang 43

Bài 5: Chỉ mục và tìm kiếm âm thanh

6 Kết luận

âm thanh

43/45

Trang 44

Câu hỏi ôn tập

hai tệp âm thanh bằng tính tổng sự khác nhau giữa các mẫu tương ứng của hai tệp này?

thanh trên cơ sở nội dung.

dựa trên phổ của nó?

trong MMDBMS mà các anh/chị biết.

dvduc-2005/14

Bài 5: Chỉ mục và tìm kiếm âm thanh

44/45

Trang 45

Câu hỏi?

Ngày đăng: 27/09/2015, 08:13

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w