Dựa trên dải tần của tín hiệu người ta chia thành 2 loại như sau: • Âm thanh dải tần cơ sở âm thanh tiếng nói thoại với dải tần số từ 300Hzđến 4KHz... 1.4 Đặc điểm của tín hiệu tiếng nói
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
- -BÁO CÁO BÀI TẬP LỚN
XỬ LÝ DỮ LIỆU ĐA PHƯƠNG TIỆN
Đề tài: Nén âm thanh tiếng thoại theo chuẩn ITU
Giáo viên hướng dẫn: PGS.TS NGUYỄN THỊ HOÀNG LAN
Nhóm sinh viên:
Trịnh Công Nam 20101926Cao Thanh Hoàng 20101569Nguyễn Đức Mạnh 20101862
Trang 2CHƯƠNG 1: TÌM HIỂU KHÁI NIỆM, ĐẶC ĐIỂM CỦA HAI LOẠI TÍN
HIỆU
1.1 Khái niệm âm thanh
Âm thanh là sóng cơ học được tạo nên do sự dao động của các phần tửkhông khí Sóng trong không khí truyền tới tai, va đập vào màng nhĩ, làm chomàng nhĩ cũng dao động với tần số bằng tần số dao động của các phân tử khí, và
có khả năng tạo ra cảm giác âm thanh trong tai ta khi tần số sóng đạt tới một độ lớnnhất định( tần số trong khoảng từ 16Hz đến 20KHz)
- Những sóng có tần số < 16Hz : sóng hạ âm
- Những sóng có tần số >20kHz: sóng siêu âm
Tai con người không cảm nhận được sóng hạ âm và sóng siêu âm
Âm thanh có thể lan truyền trong môi trường khí, lỏng, rắn nhưng khôngtruyền được trong chân không
1.2 Khái niệm audio
Là sự tái tạo của âm thanh dưới dạng tín hiệu điện tử
Dựa trên dải tần của tín hiệu người ta chia thành 2 loại như sau:
• Âm thanh dải tần cơ sở (âm thanh tiếng nói thoại) với dải tần số từ 300Hzđến 4KHz
Trang 3• Âm thanh tiếng nói dải rộng (Audio Hifi) (tiếng nói trình diễn, hát, âmnhạc…) với dải tần số từ 100Hz đến 20KHz.
Ở đây ta sẽ không xét đến chất lượng cũng như sự khác nhau giữa chấtlượng thiết bị nghe để giải thích cho sự khác nhau về chất lượng âm thanh mà chỉquan tâm tới điểm khác nhau giữa sự phân loại âm thanh dựa trên dải tần Giữa dảitần cơ sở và dải tần rộng thì bên nào cho chất lượng tốt hơn
1.3 Đặc điểm của tín hiệu tiếng nói thoại
- Giá trị nghịch đảo của T0 là F0=1/ T0 được gọi là tần số cơ bản của tiếng nói F0
phụ thuộc vào giới tính và độ tuổi của người phát âm; F0 thay đổi theo thanh điệu
và F0 cũng ảnh hưởng đến ngữ điệu của người nói
1.3.2 Biểu diễn tín hiệu tiếng nói
Có 3 phương pháp biểu diễn tín hiệu tiếng nói cơ bản là :
- Biểu diễn dưới dạng sóng theo thời gian
- Biểu diễn trong miền tần số: Phổ tín hiệu của tiếng nói
- Biểu diễn trong không gian 3 chiều (Sonagram)
Trang 4biên độ nhỏ hơn nguyên âm (cỡ khoảng 1/3).
Ranh giới giữa các từ là khoảng lặng (Silent), cần phân biệt khoảng lặng với
âm vô thanh
Hình 1.1: Dạng sóng theo thời gian
Âm thanh theo dạng sóng được lưu trữ theo định dạng thông dụng trong máytính là * WAV với các tần số lấy mẫu thường gặp: 8000Hz, 10000Hz, 11025Hz,16000Hz, 22050Hz, 32000Hz, 44100Hz,…;
Độ phân giải (số bit/ mẫu ) là 8 hoặc 16 và số kênh là 1 (mono) hoặc 2(stereo)
b Phổ tín hiệu tiếng nói
Dải tần số của tín hiệu tiếng nói thoại nằm từ khoảng 0Hz đến 20KHz, tuynhiên phần lớn công suất nằm trong dải tần số từ 0,3 KHz đến 3,4 KHz
Dưới đây là một số hình ảnh biểu diễn tín hiệu tiếng nói trong miền tần số
Trang 5Hình 1.2: Phổ tín hiệu tiếng nói và đường bao phổ
c Biểu diễn tín hiệu tiếng nói trong không gian 3 chiều
Để biểu diễn trong không gian 3 chiều, người ta chia tín hiệu thành cáckhung (frame) ứng với các ô quan sát như hình vẽ 3:
Hình 1.3: Chia tín hiệu thành các khung cửa sổ (frame)
Độ dài 1 cửa sổ tương ứng là 10ms
Trang 6Tiếp theo ta vẽ phổ của khung tín hiệu trên trục thẳng đứng , biên độ phổbiểu diễn bằng độ đậm/nhạt (đối với đồ thị đơn sắc) hoặc "nóng"/"lạnh" (đối với đồthị màu) của màu sắc Ta vẽ theo trục thời gian bằng cách chuyển sang cửa sổ tiếptheo
Hình 1.4: Phổ của một khung cửa sổ
Dựa vào phương pháp này ta có thể phân biệt âm vô thanh và âm hữu
thanh theo các đặc điểm:
- Âm vô thanh:
Năng lượng tập trung ở miền tần số cao
Các mức tần số phân bổ khá đồng đều ở cả 2 miền tần số cao và tần sốthấp
- Âm hữu thanh: Năng lượng tập trung không đồng đều
* Formant và Antiformant
Tuyến âm được coi như 1 hốc cộng hưởng có tác dụng tăng cường một tần
số nào đó Những tần số đươc tăng cường lên gọi là Formant Khoang mũi cũngđược coi là một hốc cộng hưởng , khoang mũi và khoang miệng được “mắc” song
Trang 7song nên có thể làm suy giảm một số tần số nào đó và các tần số bị suy giảm nàygọi là các AntiFormant.
Hình 1.5: Đường bao phổ và các formant
Cùng một người phát âm nhưng Formant có thể khác nhau Giá trị đặc trưngcho âm hữu thanh không chỉ căn cứ vào giá trị của từng formant mà còn phải dựavào sự phân bố tương đối của các Formant Ngoài ra nếu xác định formant trực tiếp
từ phổ thì không chính xác mà phải dựa vào đường bao phổ, cũng chính là đáp ứngtần số của tuyến âm
1.4 Đặc điểm của tín hiệu tiếng nói dải rộng (audio HiFi)
Âm thanh tiếng nói dải rộng là một công nghệ âm thanh được sử dụng phổbiến trong điện thoại Nó mở rộng phạm vi tần số của tín hiệu âm thanh truyền quađường dây điện thoại cho chất lượng cao hơn Phạm vi của các tiếng nói của conngười kéo dài từ 80 Hz đến 4 kHz, nhưng các cuộc gọi điện thoại truyền thống,
Trang 8thanh từ 50 Hz đến 7 kHz hoặc cao hơn AMR-WB đã được phát triển bởi Nokia
và VoiceAge và nó lần đầu tiên được quy định bởi 3GPP
Hình 1.6: Dải tần của kênh thoại
Một số lợi ích âm thanh tiếng nói dải rộng so với truyền thống (hẹp):
• Chất lượng âm thanh tổng thể rõ ràng hơn
• Dễ dàng hơn để nhận ra tiếng nói, phân biệt âm thanh khó hiểu và hiểunhững từ có dấu
• Dễ dàng giải mã những từ có âm thanh gần nhau “s” và “f” và nhữngngười khác, thường không thể phân biệt qua đường dây điện thoại
• Sự nhận diện tốt hơn khi trong tạp âm, chẳng hạn như khi người nói đang
sử dụng một loa ngoài
Âm thanh tiếng nói dải rộng được đưa ra như một giải pháp nhằm cải thiện chấtlượng cũng như độ tự nhiên của âm thanh bằng cách mở rộng dải phổ so với tiếng
Trang 9nói thoại bình thường Việc mở rộng tần số âm thanh được áp dụng rất nhiều trongmạng điện thoại cũng như trong âm nhạc, trong mạng điện thoại từ dải tần cơ bản
để cải thiện chất lượng người ta đã mở rộng lên dải tần 200-7000Hz, còn trong âmnhạc có thể nên tới 20kHz
Cụ thể với sự phát triển của công nghệ âm thanh tiếng nói dải rộng đã giúpchúng ta cải tạo được chất lượng tiếng nói, và độ tự nhiên đối với những âm có tần
số <300Hz, và làm tăng độ rõ với những âm có tần số >3400Hz Mở ra nhiều côngnghệ mới đối với âm thanh tiếng nói dải rộng
Trang 101.5 So sánh đặc điểm chính đối với âm thanh tiếng nói dải rộng và tiếng nói thoại
Tiếng nói thoại Tiếng nói dải rộng
mã hóa bởi 16 bits, 20bits
Trang 11CHƯƠNG 2: CÁC PHƯƠNG PHÁP MÃ HÓA
2.1 Phương pháp mã hoá DPCM :
DPCM (Differential pulse code modulation) điều xung mã vi phân là quá trình chuyển đổi 1 tín hiệu tương tự sang tín hiệu số bằng cách lấy mẫu tín hiệu tương tự và sau đó lượng tử vi phân giữa giá trị tín hiệu thực và giá trị dự đoán (dựđoán giá trị trên cơ sở mẫu trước đó hay các mẫu) và mã hóa thành giá trị số Từ
mã DPCM miêu tả vi phân giữa các mẫu không như PCM là từ mã mô tả giá trị mẫu
Khái niệm cơ bản về mã DPCM là vi phân dựa trên thực tế là hầu hết các tín hiệu nguồn chỉ ra mối tương quan giữa mẫu thành công để mã hóa sử dụng
sự dư thừa trong giá trị mẫu cái có tốc độ bit thấp hơn
Sự thực hiện khái niệm cơ bản trên được dựa trên 1 kỹ thuật mà chúng ta có
thể dự đoán dòng giá trị mẫu cơ bản trên các mẫu trước đó (hay 1 mẫu) và chúng
ta phải mã hóa hiệu số giữa giá trị thực tế của mẫu đó với giá trị dự đoán (hiệu số giữa các mẫu có thể được hiểu như dự đoán lỗi) Bởi vì nó rất cần thiết để dự đoángiá trị mẫu DPCM từ mã dự đoán
Quá trình nén DPCM phụ thuộc vào kỹ thuật dự đoán, kỹ thuật dự đoán được truyền tải tốt sẽ làm tăng tốc độ nén, ở trường hợp khác thì DPCM sẽ so sánh độ giãn trung bình để điều hòa mã PCM
Sơ đồ mã hoá và giải mã DPCM :
Trang 12Hình 2.1: Sơ đồ giải mã và mã hoá
2.2 Phương pháp mã hoá ADPCM :
Một cách đơn giản mà có thể được sửa đổi chế độ PCM là chúng ta có thể
mã hóa sự khác biệt giữa hai mẫu kế tiếp hay hơn là mã hóa các mẫu một cách trực tiếp Kỹ thuật này được gọi là điều chế xung mã vi sai
Một đặc tính của các tín hiệu thoại có thể được sử dụng là một giá trị mẫu
có thể được dự đoán từ các giá trị mẫu quá khứ Ở phía truyền, chúng ta dự
Trang 13đoán giá trị của mẫu và tìm thấy sự khác biệt giữa giá trị dự báo và giá trị thực tế
và sau đó gửi các giá trị khác biệt Kỹ thuật này được gọi là điều chế thích nghixung mã vi sai (ADPCM) Sử dụng ADPCM, tín hiệu thoại có thể được mã hoá tại32kbps mà không cần bất kỳ sự xuống cấp về chất lượng so với PCM
ITU-T khuyến nghị G.721 quy định các thuật toán mã hóa Trong ADPCM,giá trị của mẫu lời thoại không được truyền, nhưng sự khác biệt giữa giá trị dự báo
và các mẫu giá trị thực tế được thì được truyền Nói chung, các coder ADPCM lấy
dữ liệu mã hoá tiếng nói PCM và chuyển đổi nó thành dữ liệu ADPCM
Các sơ đồ khối của một bộ mã hóa ADPCM được thể hiện trong Hình 3 (a).8-bit luật mẫu PCM được đặt vào bộ mã và được chuyển đổi sang dạng tuyếntính Mỗi giá trị mẫu được dự đoán bằng cách sử dụng một thuật toán dự đoán, vàsau đó giá trị dự đoán của các mẫu tuyến tính được trừ vào giá trị thực tế để tạo racác tín hiệu khác biệt Lượng tử hóa thích nghi được thực hiện trên giá trị khácbiệt này để tạo ra một mẫu giá trị ADPCM 4-bit, là cái được truyền đi Thay vì đạidiện cho mỗi mẫu bằng 8 bit, trong ADPCM chỉ có 4 bit được sử dụng Ở đầutiếp nhận, các bộ giải mã, thể hiện trong hình 4.3 (b), có được phiên bảndequantized (chuyển từ tín hiệu số sang tín hiệu tương tự) của tín hiệu kỹ thuật số.Giá trị này được thêm vào các giá trị được tạo ra bởi các yếu tố dự báo thích ứng
để tạo ra các lời nói được mã hoá PCM tuyến tính, được điều chỉnh để tái tạolại bằng quy tắc M dựa trên phương pháp mã hoá tiếng nói PCM
Trang 14s(n)=a1.s(n-1) + a2.s(n-2) + a3.s(n-3)+ … + a(p).s(n-p).
Trang 15Phương pháp LPC chia làm 2 phần :
• Phần phân tích : từ tín hiệu tiếng nói ban đầu, phân tích để tìm ra các tham
số liên quan, các tham số này sẽ được xác định theo mô hình LPC Sau đó tham số sẽ được truyền đến phần tổng hợp
• Phần tổng hợp : Nhận các tham số từ phần phân tích và tổng hợp lại tiếng
nói ban đầu
Bài toán phân tích :
Để minh hoạ cho phương pháp LPC ta sử dụng 1 bài toán :
– Đầu vào là 180 mẫu khi ta lấy mẫu trong khoảng thời gian 22.5ms vớitần số lấy mẫu là 4kHz Đầu ra sẽ là 1 vector tham số có dạng A = (a1
, a2 , a3 , a4 , a5 , a6 , a7 , a8 , a9 , a10 , G , V/UV , T)
– Trong đó ai là các hệ số bộ lọc LPC
– G là trọng số kích thích
– V/UV quyết định hữu thanh hay vô thanh
– T là chu kì pitch(Chỉ áp dụng với âm hưu thanh)
Xác định tham số G :
Theo chuẩn LPC 10 tham số kích thích G được xác định bởi năng lượng RMSE( Root mean Square Energy ) theo công thức :
E =( )1/2)
Trang 16Trước tiên ta xác định tập tham số giá trị bình sai khác mẫu AMDF(AverageMagnitude Difference Function )
• AMDT(i) = Trong đó :
- u(t) là mẫu tín hiệu âm thanh thoại ban đầu
- i nằm trong khoảng giá trị [20 - 156]
Nếu trong tập giá trị AMDT tồn tại 2 giá trị nhỏ nhất sao thì khoảng cách đó chính là chu kì Pitch ứng với T và khi đó V/UV bằng 1 là giá trị hữu thanh Còn không thì ta sẽ có V/UV bằng 0 là âm vô thanh
Xác định các hệ số LPC :
• Giải thuật Levinson-Durbin :
Trong đó :
Trang 17Sau khi dùng giải thuật trên ta thu đươc 1 tập các giá trị α Các hệ số được xác định : ai = αi,P
Sau khi thu được các giá trị trên ta sẽ có tập giá trị mã hoá :
Trang 18LPC Tổng hợp :
Hình 2.4: Sơ đồ tổng hợp tiếng nói
2.4 Phương pháp mã hoá Hỗn Hợp (Lai) :
Mã hoá lai (Hybrid coder) :là tổng hợp giữa hai phương pháp mã hoá dạng sóng mà mã hoá nguồn , nhằm khắc phục cả 2 nhược điểm trên Như ta đã nói thì
mã hoá dạng sóng sẽ cho chất lượng tốt không tốt lắm với tốc độ khoảng 16kbps , trong khi mã hoá nguồn lại được thực hiện ở một tốc độ bit thấp là 2.4kps nhưng không thể đưa ra sản phẩm chất lượng tự nhiên Có rất nhiều dạng mã hoá hỗn hợp tuy nhiên phương pháp thành công nhất và sử dụng rộng rãi nhất và thành công nhất đó là phương pháp mã hoá hỗn hợp trong miền tần số dựa trên phân tích bằng cách tổng hợp AbS(Analysis by Synthesis) Phương pháp này sử dụng mô hình dự đoán lọc tuyến tính Tuy nhiên thay vì mô hình đơn giản gồm có cả hai
Trang 19trạng thái là hữu thanh và vô thanh(voiced / unvoiced) Để tìm đầu vào cần thiết cho bộ lọc , thì tín hiệu kích thích được chọn sao cho tín hiệu được khôi phục gần giống nhất với tín hiệu ban đầu
Hình 2.5: Sơ đồ mã hoá lai
Trang 20CHƯƠNG 3: TÌM HIỂU CÁC CHUẨN NÉN ITU
3.1 Tìm hiểu các chuẩn nén ITU.
Nén tín hiệu thoại: trong mạng điện thoại thông thường tín hiệu thoại được
mã hóa PCM theo luật A hoặc Muy với tốc độ 64Kbps Với cách mã hoác này cho phép khôi phục một cách tương đối trung thực các âm thanh trong giải tần tiếng nói Tuy nhiên trong một số ứng dụng đặc biệt yêu cầu truyền âm thanh với tốc độ thấp hơn ví dụ như truyền tín hiệu thoại trên mạng internet Từ đã xuất hiện một số
kỹ thuật mã hóa và nén tín hiệu tiếng nói xuống tốc độ thấp cụ thể là các chuẩn G723 1, G729, G729A
Hiệp hội viễn thông quốc tế ITU-T (International Telecommunication Union
- Telecommunication) đã đưa ra các chuẩn nén âm thanh mới nhất như G728,G729, G723.1 … dành cho băng thông thoại thấp với tần số 300Hz đến 3.4 kHz.Tất cả các chuẩn này đều dựa trên chuẩn mã hóa CELP (Code – Excited LinearPrediction) Chuẩn nén âm thanh đã được tiêu chuẩn hóa trong mã ANSI-C với 2
lý do chính:
- Độ tin cậy khi tương tác giữa các thiết bị
- Giá thành thấp và những tiện ích thực thi dựa trên 16 bit fixpoint DSP.Một vài chuẩn nén âm thanh thoại ITU như:
G.711 - Điều biến mã Pulse các tần số thoại (PCM) trong đó tín hiệuaudio 3.1 kHz analogue được mã thành các luồng 48, 56 hoặc 64 kbpsstream Chỉ được dùng khi không có thể dùng được chuẩn nào khác.Một giá trị được đề nghị củ tần số lấy mẫu là 8000 sample/giây Độ saisót thường là +/- 50 phần triệu
Trang 21 G.722 - Mã hóa audio 7 kHz thành các luồng 48, 56 hoặc 64 kbps Chấtlượng cao nhưng chiếm nhiều băng thông.
G.722.1 - Mã hóa audio 7 kHz ở 24 và 32 kbps với tỉ lệ mất khung thấp
G.722.1 Annex C Chuẩn ITU có nguồn gốc từ Siren 14 của Polycom
Thời gian trễ tổng cộng lầ 37.5 ms
G.728 - Mã hóa 3.4 kHz Low Delay Code Excited Linear Prediction(LD-CELP) trong đó âm thanh 3.4 kHz analogue được mã thành luồng
16 kbps Chuẩn này cung cấp chất lượng tốt ở tốc độ thấp
G.729 A/B - Mã hóa 3.4 kHz với âm thanh gần bằng chất lượng điệnthoại cố ddịnh, âm thanh được mã thành luồng 8 kbps sử dụng phươngpháp AS-CELP Phụ lục A là mã giảm hóa bớt độ phức tạp, phụ lục B
hỗ trợ triệt lặng và cung cấp âm thanh nền dễ chịu Ngoài ra mỗi nhà sảnxuất còn có các chuẩn mã hoá riêng cho chất lượng âm thanh rất cao nếu
sử dụng thiết bị đồng nhất của một hãng Ví dụ: các chuẩn PT716plus,PT724, Siren14, Siren22 của Polycom
Trang 22Hình 3.1: So sánh các chuẩn nén âm thanh thoại
3.2 Giải thích tại sao các chuẩn này thường được dùng trong các ứng dụng VOIP?
- Các ứng dụng VOIP cần truyền âm thanh với tốc độ thấp
- Cải thiện độ tin cậy và chất lượng âm thanh tốt hơn
Nén tín hiệu thoại: trong mạng điện thoại thông thường tín hiệu thoại được
mã hóa PCM theo luật A hoặc Muy với tốc độ 64Kbps Với cách mã hoác này cho phép khôi phục một cách tương đối trung thực các âm thanh trong giải tần tiếng nói Tuy nhiên trong một số ứng dụng đặc biệt yêu cầu truyền âm thanh với tốc độ thấp hơn ví dụ như truyền tín hiệu thoại trên mạng internet Từ đã xuất hiện một số
kỹ thuật mã hóa và nén tín hiệu tiếng nói xuống tốc độ thấp cụ thể là các chuẩn G723 1 G729 G729A