MÃ HÓA ÂM THANH CHUẨN WAV
Trang 2Vai trò xử lý âmthanh
Điều xung mã PCM
Các chuẩn nén audio
Các khái niệm trong âm thanh
Giải thuật nén âm thanh
Cấu trúc Wave File
Nội dung
Trang 3Vai trò của xử lý âm thanh hình ảnh trong truyền thông đa phương tiện
Xu hướng phát triển của viễn thông: các nhu cầu về dịch vụ và các hạn chế của công nghệ truyền dẫn, chuyển mạch liên quan để thấy được vai trò của xử lý âm thanh và hình ảnh;
Các chuẩn nén âm thanh và hình ảnh đang được sử dụng phổ biến trong truyền thông: G711, G729; JPEG; MPEG; H264…
Trang 4Các đặc điểm của hệ thống thính giác
Trang 5Sự cảm thụ của tai người đối với
âm thanh
Khoảng cách dải âm lớn nhất và yếu nhất mà tai con người có thể nghe là 120dB, tức là dải 1 triệu lần biên độ Người nghe có thể phát hiện sự thay đổi độ ồn âm thanh khi tín hiệu bị thay đổi khoảng 1dB (biên độ thay đổi 12%)
Nhận biết mức độ ồn liên quan mật thiết với công suất âm thanh theo bậc mũ 1/3
Nếu tăng công suất âm lên 10 lần, người nghe nhận được rằng độ ồn tăng lên tầm 2 lần (101/3≈2 lần)
Dải nghe của con người thông thường từ 20Hz đến 20kHz, độ nhạy âm lớn nhất từ 1kHz đến 4kHz
Khả năng xác định hướng nguồn âm tốt nhưng xác định khoảng cách đến nguồn âm kém
Trang 6Ngưỡng nghe
Trang 7Mặt nạ thời gian
Trang 8Mặt nạ tần số
Trang 9
T/h số010011
hóa
Mã hóaLấy mẫu
T/h rời rạc x(n) T/h số xq(n)
Mã hóa ADC
Biến đổi ADC
Trang 10Điều xung mã PCM được đặc trưng bởi 3 quá trình :
Trang 11Lượng tử hóa và mã hóa không đều
Thực hiện:
1. Nén tín hiệu tương tự bằng bộ khuếch đại nén phi tuyến
2. Lượng tử hóa & mã hóa PCM đề
ln(
) ) t ( s 1
ln(
) t (
µ +
=
Trang 12A=1 A=5
s1(t) s2(t)
≤
≤ +
=
1 ) t (
s A
1 ,
A ln 1
) ) t ( s A ln(
1
A
1 )
t ( s 0
, A ln 1
) t ( s A )
t
(
s
1 1
1 1
2
Trang 13Đặc tuyến nén xấp xỉ hóa tuyến tính luật A
1.0 1/2
1/4 1/8
3
2
1 7/8
6/8
5/8 1.0
Trang 14Khái niệm : Lấy mẫu là quá trình rời rạc hóa tín hiệu theo thời gian
Trang 151 Lượng tử hóa đều: Chia biên độ xung lấy mẫu thành các khoảng đều nhau, mỗi khoảng là một bước lượng tử đều ∆
Trang 162 Lượng tử hóa không đều : Chia biên
độ xung lấy mẫu thành các khoảng
không đều nhau theo nguyên tắc khi biên
độ xung lấy mẫu càng lớn thì độ dài
bước lượng tử càng lớn
Lượng tử hóa
Trang 171 Chức năng: Chuyển đổi biên
độ xung lượng tử thành một từ
mã 8 bít
2.Đặc tính bộ mã hóa A=87,6/13
Mã hóa
Trang 18Điều xung mã vi sai DPCM
Click to edit Master text styles
Second level
Third level
Fourth level
Fifth level
Trang 20Mô hình miền thời gianViệc mô tả âm thanh trong miền tần số rất có hiệu quả, tuy nhiên trong một vài ứng dụng, để tiện việc nghiên cứu việc tổng hợp âm thanh, việc phân tích trong miền thời gian lại có ưu thế hơn.
Trang 21 Realaudio: Định dạng của công ty RealNetworks, chủ yếu dùng cho phát nhạc trực tuyến, định dạng đầu tiên ra đời
năm 1995, đến nay đã có RealAudio 10
WMA: Định dạng âm thanh của Microsoft, ra mắt năm 1999, trên lý thuyết có thể nén 96 kbps với chất lượng của
MP3 128 kbps WMA cũng phổ biến trong thế giới âm thanh phát trực tuyến
Chuẩn nén audio
Trang 22 Hiệu ứng che (masking)
Ngưỡng nghe và mức nhạy cảm
Che tần số (Frequency Masking)
Che nhất thời (che thời gian)
Các khái niệm trong âm thanh
Trang 23Hiệu ứng che (masking): là âm lớn át âm bé, âm mạnh át âm yếu:
Các khái niệm trong âm thanh
Trang 24Che tần số: (Frequency Masking)
Phát ra 1 âm có tần số 1 kHz với mức to cố định là 60dB, gọi là “âm che” (masking tone) Phát ra một âm khác (gọi là test tone) ở mức tần số khác (ví dụ 1.1kHz), và tăng mức to của âm này cho đến khi có thể nghe được nó (phân biệt được
âm 1.1 kHz và âm che 1kHz)
Các khái niệm trong âm thanh
Trang 25Làm thí nghiệm với các “masking tones” có các tần số khác nhau, ta có được hình vẽ:
Che tần số (Frequency Masking)
Trang 26 Che nhất thời (che thời gian)
Nếu ta nghe một âm thanh lớn, rồi ngưng nó lại, mãi một lúc sau ta mới có thể nghe được một âm lân cận nhỏ hơn
Trang 27Các giải thuật nén âm thanh
Nén không tổn thất
Mã hóa Huffman
Mã hóa Huffman sửa đổi
Mã hóa số học
Trang 28Dựa vào mô hình thống kê tính tần suất xuất hiện các ký tự
Gán cho các ký tự có tần xuất cao bằng một từ mã ngắn, các ký tự có tần xuất thấp bằng một từ mã dài
Tạo cây huffman
Giải thuật nén không tổn thất
Trang 29- Khởi tạo: đưa các node vào danh sách open theo thứ tự tại mọi thời điểm.
- Lặp lại cho đến khi danh sách open chỉ còn một node bên trái như sau:
Từ danh sách open, chọn hai node có xác suất thấp nhất rồi tạo node cha cho chúng Sau đó đưa node cha vào danh sách open Gán mã
0,1 vào các nhánh cây và xóa các node con khỏi danh sách open.
Giải thuật nén không tổn thất
Trang 30Ký tự Tần suất Ký tù Tần suất xác suất
Trang 324 Giải thuật Lempel-Ziv-Welch(LZW).
• Giả sử chúng ta muốn mã hóa cho một cuốn từ điển Tiếng Anh 159,000 từ Như vậy mỗi từ cần 18 bit để mã hóa
• Nhược điểm: Dùng qúa nhiều bit Chỉ làm việc cho ký tự tiếng Anh
• Giải pháp: Cần phải tìm một cách mã hóa cuốn từ điển cho thích hợp
output the code for w;
w = k;
}
Giải thuật nén khơng tổn thất
Trang 33typedef struct {
WORD wFormatTag;
WORD nChannels;
DWORD nSamplesPerSec; DWORD nAvgBytesPerSec; WORD nBlockAlign;
} WAVEFORMAT;
Cấu trúc Wave File
Trang 34- nChannels: nChannels: có hai giá trị bằng 1 cho âm thanh mono và bằng 2 cho âm thanh stereo.
Cấu trúc Wave File
Trang 35nAvgBytesPerSec: cho biết số bytes yêu cầu trung bình trong một giây để phát lại mẫu dữ liệu của sóng âm.
Cấu trúc Wave File
Trang 36- nBlockAlign:
nBlockAlign: cho biết số byte dùng để chứa một mẫu âm thanh Như vậy mẫu 8 bit hay ít hơn sẽ yêu cầu 1 byte, mẫu 9 đến
16 bit sẽ yêu cầu 2 bytes Nếu âm thanh là Stereo thì yêu cầu gấp 2 lần số byte dùng cho âm thanh mono
Cấu trúc Wave File
Trang 37• [1] Kỹ thuật Multimedia PGS-TS Phạm Văn Tuấn - ĐHBKĐN
• [2] Bài giảng xử lý âm thanh và hình ảnh (Học viện công nghệ BCVT)
• [3] Bài giảng Kỹ thuật Multimedia của Thầy Phạm Duy Nhất Viễn- ĐHBK – ĐN
• [4] Tài liệu Xử lý âm thanh – Hình ảnh của Trung tâm đào tạo BCVT 1
• [5] WWW Tailieu.vn
Tài liệu tham khảo
Trang 38XIN CHÂN THÀNH CẢM ƠN