Nén âm thanh tiếng nói thoại theo chuẩn ITU

Chính vì vậy, chúng em đã quyết định chọn đề tài số 16 - NÉN ÂM THANH TIẾNG NÓI THOẠI THEO CHUẨN ITU Nội dung báo cáo gồm 3 phần chính: Phần 1: Tìm hiểu một số khái niệm sound và đặc điể

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

──────── * ───────

BÁO CÁO

XỬ LÝ DỮ LIỆU ĐA PHƯƠNG TIỆN

NHÓM 16: NÉN ÂM THANH TIẾNG NÓI THOẠI THEO CHUẨN

ITU

Giáo viên hướng dẫn : PGS.TS Nguyễn Thị Hoàng Lan

Sinh viên thực hiện : Phạm Thành Đạt – 20121503

Đỗ Xuân Cường – 20121358 Doãn Tuấn Vũ - 20122814

Trang 2

MỤC LỤC

Trang 3

LỜI NÓI ĐẦU

Hiện nay, Voice over IP (hay viết tắt là VoIP) nghĩa là truyền giọng nói trên giao thức IP là một trong những công nghệ hỗ trợ rất đắc lực cho các doanh nghiệp trong lĩnh vực truyền thông Sử dụng giao thức TCP/IP, nó sử dụng các gói dữ liệu IP trên mạng LAN, WAN hay Internet để truyền tải âm thanh dưới dạng mã hóa VoIP đã được ITU-T xây dựng các chuẩn luôn được cập nhật nên ngày càng hoàn chỉnh Chính vì vậy, chúng em đã quyết định chọn đề

tài số 16 - NÉN ÂM THANH TIẾNG NÓI THOẠI THEO CHUẨN ITU

Nội dung báo cáo gồm 3 phần chính:

Phần 1: Tìm hiểu một số khái niệm sound và đặc điểm của hai loại tín hiệu audio: tín hiệu tiếng nói thoại và audio HiFi

Phần 2: Tìm hiểu các chuẩn ITU dùng trong các ứng dụng VOIP

Phần 3: Phân tích một sơ đồ mã hóa tiếng nói thoại theo chuẩn ITU G726

Phần 4: Xây dựng thuật toán mã hóa theo sơ đồ phân tích trên, đặt thực nghiệm và đo lường hiệu năng giải pháp nén này

Do thời gian nghiên cứu trình độ hiện tại của nhóm có hạn nên chắc chắn trong quá trình thực hiện đề tài không tránh khỏi những sai lầm, thiếu sót cả

về nội dung lẫn hình thức Trong suốt quá trình thực hiện, nhóm đã liên tục nhận được sự nhắc nhở, góp ý từ cô Nguyễn Thị Hoàng Lan - giảng viên

hướng dẫn của nhóm

Chúng em xin chân thành cảm ơn cô!

Trang 4

A- Một số khái niệm sound và đặc điểm của hai loại tín hiệu audio

1. Tìm hiểu chung về âm thanh thoại

Âm thanh (Sound) là các dao động cơ học của các phần tử, nguyên tử hay các hạt vật chất lan truyền trong không gian, được cảm nhận trực tiếp qua tai người bởi sự va đập vào màng nhĩ và kích thích bộ não Sóng âm tần được đặc trưng bởi biên độ, tần số (bước sóng) và vận tốc lan truyền Đối với tai người, âm thanh cảm nhận được bởi sóng có dao động trong dải tần từ 20Hz đến 20kHz Tín hiệu âm thanh được chia thành 2 loại dựa trên dải tần:

- Âm thanh dải tần cơ sở (âm thanh tiếng nói thoại, gọi tắt là âm thanh thoại): có dải tần từ 300Hz đến 4kHz.

- Âm thanh dải rộng (tiếng nói trình diễn, hát, âm nhạc…): có dải tần số

- Giới hạn dải phổ tín hiệu 300Hz -

4kHz.

- Tần số lấy mẫu f s = 8kHz tương

đương với chu kỳ T e = 125µs.

- Mỗi mẫu được mã hóa bởi 8bits.

- Tốc độ dữ liệu stereo: 176 Kbyte/s

2. Các phương pháp mã hóa tiếng nói

Mã hóa tiếng nói gồm 3 phương pháp chính:

2.1 Phương pháp mã hóa sóng (waveform)

+ Mã hóa dạng sóng là kỹ thuật duy trì hình dạng ban đầu cả các sóng tín hiệu.

Trang 5

Nguyên lý của mã hóa dạng sóng : Tại phía phát sẽ nhận tín hiệu tiếng nói tương tụ liên tục và mã hóa thành tín hiệu số Tại phía thu, bộ giải

mã đảm nhận nhiệm vụ ngược lại để khôi phục tiếng nói, khi không có lỗi truyền dẫn thì dạng sóng của tiếng nói khôi phục sẽ giống vơi tiếng nói gốc

- PCM – kỹ thuật mã hóa dựa trên định lý Nyquist, định lý nói rằng nếu một tín hiệu được lấy mẫu thống nhất ít nhất là gấp đôi tần số cao nhất, nó có thể được tái tạo mà không có bất kỳ sự biến dạng nào Tần

số cao nhất trong tín hiệu thoại là 4kHz, vì vậy chúng ta cần phải mẫu dạng sóng là 8.000 mẫu / giây, mỗi 1/8000th của một giây (125 micro giây).

- ITU-T tiêu chuẩn G.711 quy định các cơ chế mã hóa của tín hiệu thoại Tín hiệu tiếng nói có giới hạn băng thông là 4kHz, lấy 8.000 mẫu / giây,

và mỗi mẫu được thể hiện bằng 8 bit Do đó, bằng cách sử dụng PCM, tín hiệu thoại có thể được mã hoá là 64kbps.

o Mã hóa dự đoán – điều xung mã sai phân Differential Pulse Code Modulation - DPCM.

- DPCM (Differential pulse code modulation) điều xung mã vi phân là quá trình chuyển đổi 1 tín hiệu tương tự sang tín hiệu số bằng cách lấy mẫu tín hiệu tương tự và sau đó lượng tử vi phân giữa giá trị tín hiệu thực và giá trị dự đoán (dự đoán giá trị trên cơ sở mẫu trước đó hay các mẫu) và mã hóa thành giá trị số Từ mã DPCM miêu tả vi phân giữa các mẫu không như PCM là từ mã mô tả giá trị mẫu.

Trang 6

o Mã hóa dự đoán thích nghi – điều xung mã sai phân thích nghi Adaptive Differential Pulse Code Modulation - ADPCM với chuẩn G.726.

- Một cách đơn giản mà có thể được sửa đổi chế độ PCM là chúng ta có thể mã hóa sự khác biệt giữa hai mẫu kế tiếp hay hơn là mã hóa các mẫu một cách trực tiếp Kỹ thuật này được gọi là điều chế xung mã vi sai.

- Một đặc tính của các tín hiệu thoại có thể được sử dụng là một giá trị mẫu có thể được dự đoán từ các giá trị mẫu quá khứ Ở phía truyền, chúng ta dự đoán giá trị của mẫu và tìm thấy sự khác biệt giữa giá trị

dự báo và giá trị thực tế và sau đó gửi các giá trị khác biệt Kỹ thuật này được gọi là điều chế thích nghi xung mã vi sai (ADPCM) Sử dụng ADPCM, tín hiệu thoại có thể được mã hoá tại 32kbps mà không cần bất kỳ sự xuống cấp về chất lượng so với PCM.

- ITU-T khuyến nghị G.721 quy định các thuật toán mã hóa Trong ADPCM, giá trị của mẫu lời thoại không được truyền, nhưng sự khác biệt giữa giá trị dự báo và các mẫu giá trị thực tế được thì được truyền Nói chung, các coder ADPCM lấy dữ liệu mã hoá tiếng nói PCM

và chuyển đổi nó thành dữ liệu ADPCM.

Mã hóa trong miền tần số:

o Mã hóa các dải tần con Subband Coding – SBC với chuẩn G.722

Đối với âm thanh, thực nghiệm cho thấy tai người có một số hiệu ứng đối với âm thanh như hiệu ứng che tần số, che thời gian, Do đó có thể tiết kiệm dữ liệu bằng cách loại đi các thành phần tín hiệu bị che, chỉ mã hoá những phần nghe thấy được Hiệu ứng che ở tai người là khác nhau trên từng thành phần tần số, vì thế ta cần chia tín hiệu âm thanh thành các thành phần tần số con (dải băng con) rồi xác định các thành phần bị che và không bị che của tín hiệu trong từng dải tần số để xử lý.

Đó là tư tưởng cơ bản của mã hoá SBC Mã hóa SBC chia tín hiệu gốc thành các thành phần tín hiệu thuộc các dải tần (sub-band) để xử lý và mã hóa riêng biệt từng thành phần sau đó gửi đi Việc nhận tín hiệu, giải mã và khôi phục tín hiệu ban đầu được thực hiện theo trình tự ngược lại Các dải băng con không chồng chập lên nhau (mà thực chất là liền kề nhau), do đó tín hiệu thu được ở các dải tần được giải tương quan, nhờ đó có thể mã hoá riêng biệt mà vẫn khôi phục được thành tín hiệu ban đầu

Trang 7

Mã hoá SBC được ứng dụng rộng rãi trong nén dữ liệu audio, video, đặc biệt là trong chuẩn nén dữ liệu MPEG.

Mã hoá SBC gồm các bước sau:

- Lọc phân tích: tín hiệu được đưa qua các bộ lọc nhằm chia tín hiệu thành các thành phần tín hiệu ứng với các dải tần không chồng nhau Đáp ứng xung của các bộ lọc sau bằng bộ lọc trước nhân với hàm số cos (để dịch đáp ứng đi một khoảng)

- Tín hiệu của các dải tần được giảm tần số lấy mẫu đi M lần (M là số dải tần chia tín hiệu) Việc giảm tần số lấy mẫu làm phổ rộng ra, trải hết trục tần số Số mẫu lúc này cũng giảm theo Giảm tần số lấy mẫu được thực hiện dựa theo định lý lấy mẫu Nyquist và hệ quả của định lý

Nyquist Tỷ lệ giảm tần số lấy mẫu phụ thuộc vào tỷ lệ giữa dải thông của bộ lọc với dải tần tín hiệu vào.

- Thực hiện lượng tử hoá và mã hoá riêng trên từng dải tần số Lựa chọn phương pháp lượng tử hoá và mã hoá, thực hiện và phân phối bit dựa trên tính chất của dòng tín hiệu sau bộ lọc Đây là bước mang lại hiệu quả nén cho toàn bộ quá trình mã hoá SBC.

Phân phối bit là việc phân chia số bit hiện có cho mã hoá từng dải, dựa theo tín hiệu của từng dải do trong từng dải, lượng thông tin là khác nhau Phân phối bit ảnh hưởng lớn đến khôi phục dữ liệu sau quá trình gửi nhận dữ liệu.Giải mã, tổng hợp SBC thực hiện theo trình tự ngược lại:

- Tín hiệu nhận được được phân kênh về các bộ xử lý với các dải tần tương ứng

- Giải mã tín hiệu, sử dụng các hệ số của quá trình lượng tử hoá và

mã hoá ở trước

- Tăng tần số lấy mẫu lên M lần

- Đi qua các bộ lọc để tín hiệu có xung giống như lúc sau khi đi qua bộ lọc phần mã hoá

- Ghép các tín hiệu lại thành tín hiệu ban đầu

o Mã hóa dựa trên phép biến đổi Transform Coding.

Kết luận: Ưu điểm của mã hóa dạng sóng là có khả năng cung cấp thoại tốt như tiếng nói gốc nhưng chỉ hiệu quả ở tốc độ bit cao

2.2 Phương pháp mã hóa nguồn:

o Nguyên lý mã hóa nguồn dựa trên bộ mô phỏng hệ thống phát âm con người Vocoder, tạo ra âm thanh tiếng nói từ tập các tham số Vocoder

Trang 8

làm việc với 2 kiểu nguồn kích thích là nguồn xung tạo ra âm hữu thanh

và nguồn nhiễu trắng tạo ra âm vô thanh Từ đó, nó mô phỏng hệ thống phát âm bằng hệ thống lọc dự đoán tuyến tính LPC được kích thích bằng hai trạng thái nguồn.

o Ưu điểm của phương pháp này là đạt được tốc độ dòng bit thấp, phân tích được các tham số nguồn kích thích, có thể sửa đổi nội dung tiếng nói theo ý muốn Tuy nhiên, nhược điểm của nó là tiếng nói nhận được

là tiếng nói tổng hợp không phải là giọng nói con người.

2.3 Phương pháp mã hóa lai:

o Mã hóa lai dùng để lấp khoảng cách ranh giới giữa mã hóa dạng sóng

và mã hóa nguồn vì mã hóa dạng sóng có khả năng cung cấp thoại tốt nhưng bị giới hạn về sử dụng tốc độ thấp hơn còn mã hóa nguồn có thể hoạt động ở tốc độ tấp nhưng không thể tạo ra âm thanh trung thực ở bất kì tốc độ nào

o Mã hóa lai phổ biến là mã hóa dựa trên kết hợp phân tích bằng cách tổng hợp Analysis-by-Synthesis AbS:

+ Phương pháp này sử dụng mô hình dự đoán tuyến tính ( giống LPC) tạo ra âm thanh tiếng nói nhờ tập các tham số nhưng không ứng dụng mô hình ở trạng thái đơn giản ( hữu thanh- vô thanh).

+ Mô hình này cố gắng giảm tối đa độ sai lệch với dạng sóng của tín hiệu vào bằng cách tìm kiếm tín hiệu kích thích ký tưởng + Thuật toán tìm ra sóng kích thích này quyết định độ phức tạp của bộ mã hóa.

o Các loại mã hóa lai khác nhau theo kỹ thuật phân tích tạo ra tín hiệu kích thích CELP, RPE-LTP, MPE…

Đánh giá chung về 3 phương pháp:

 Mã hóa dạng sóng nói chung không cho phép đạt chất lượng tiếng nói tốt ở tốc độ bit dưới 16Kbps Nhưng tiếng nói nhận được khá giống với tiếng nói ban đầu

Trang 9

 Mã hóa Vocoder có thể đạt được tốc độ bit rất thấp nhưng tiếng nói nhận được là tiếng nói tổng hợp không giống với tiếng nói ban đầu.

 Mã hóa lai cải thiện được các nhược điểm của mã hóa sóng và mã hóa nguồn, nhưng tương đối phức tạp thường được dùng theo chuẩn GSM.

B- Các chuẩn ITU dùng trong các ứng dụng VOIP

Hiệp hội viễn thông quốc tế ITU-T (International Telecommunication Union - Telecommunication) đã đưa ra các chuẩn nén âm thanh mới nhất như G728, G729, G723.1 … dành cho băng thông thoại thấp với tần số 300Hz đến 3.4 kHz Tất cả các chuẩn này đều dựa trên chuẩn mã hóa CELP (Code – Excited Linear Prediction) Chuẩn nén âm thanh đã được tiêu chuẩn hóa trong mã ANSI-C với 2 lý do chính:

- Độ tin cậy khi tương tác giữa các thiết bị.

- Giá thành thấp và những tiện ích thực thi dựa trên 16 bit fixpoint DSP.

Một vài chuẩn nén âm thanh thoại ITU :

 Sử dụng trên các thiết bị đường dây số

 G.711 ( a-law và u-law hàm lượng tử hóa của PCM ở tốc độ 64kbits/s)

G.711 là 1 chuẩn nén –giãn âm thanh của ITU-T thường được sử dụng

ở điện thoại Chuẩn được đưa sử dụng vào năm 1972.Tên chính thức của chuẩn G.711 là phương pháp điều biến mã xung cho tần số giọng nói “Pulse Code Modulation _PCM” có 2 phiên bản là Uu-law sử dụng cho Bắc Mỹ và Nhật Bản và a-law sử dụng cho các quốc gia còn lại Chuẩn G.711 được khuyên dùng bởi nhiều công nghệ khác như H.320 ,

Trang 10

H.323 G.711 là bộ codec đặc trưng cho mã hóa dạng sóng G.711 yêu cầu cung cấp bang thông 64kbit/s truyền tín hiệu thoại trong khoảng

từ 300-3400Hz và lấy mẫu chúng với tốc độ 8000 mẫu/s Về sau có phát triển thành 2 phiên bản G.711.0 và G.711.1 bổ sung về phương pháp nén dữ liệu để giảm bang thông và tang chất lượng âm thanh Ứng dụng thực tế:

- G.711 là chuẩn ITU-T dùng cho thoại cho các tổng đài , được phát hành chính thức vào năm 1972

- G.711 trình bày các mẫu điều chế xung mũ logarit cho tín hiệu ở bang tần thoại ,tần số lấy mẫu là 8000 mẫu trong 1 s

- Có 2 thuật chính thức được được định nghĩa trong chuẩn này là , giải thuật µ-law dung cho khu vực Bắc Mỹ, Nhật và giải thuật A-law dùng cho khu vực châu Âu và những nước còn lại

- 2 giải thuật được mã hóa ở dạng các mẫu PCM tuyến tính 14-bit và law là 13-bit với mẫu 8-bit.Như vậy bộ mã hóa G.711 sẽ tạo được luồng

A-dữ liệu bit có tốc độ 64kbit/s với tần số lấy mẫu là 8kHz

- G.711 thường được sử dụng trong Voice over Internet Protocol (VoIP), còn được gọi là điện thoại Internet.

Tiêu chuẩn G.722 ITU sử dụng chủ yếu ở hội nghị qua điện thoại , ngoài

ra còn được sử dụng trong hệ thống truyền thông không dây , dịch vụ thông tin liên lạc cá nhân

Ứng dụng thực tế:

Trang 11

- Là chuẩn ITU-T dung cho mã hóa tiếng nói bang tần rộng hoạt động với tốc độ truyền 32-64 kbit/giây Công nghệ mã hóa dựa trên việc phân chia bang tần ADPCM

- Chuẩn G.722 và dữ liệu mẫu âm thanh 16kHz, gấp đôi tốc độ xử lý tại các giao tiếp thoại truyền thông, kết quả chất lượng thoại tốt hơn

- Chuẩn G.722 được các nhà cung cấp VOIP sử dụng

- Ngoài ra G.722 còn được sử dụng trong các hệ thống truyền thông không dây, dịch vụ thông tin liên lạc cá nhân, ứng dụng hội nghị truyền hình và General Packet Radio Service (GPRS).

3 Chuẩn G723

G.723 cũng giống như chuẩn G.722 là chuẩn mã hóa âm thoại băng tần rộng , nó là chuẩn mở rộng của G.711 điều chế xung sai phân thích ứng với tốc độ truyền là 24 và 40kbit/s ,nó vẫn chưa đáp ứng được mục tiêu của ITU là chuẩn mã hóa âm thoại băng tần rộng hoạt động trên dải

16, 24 và 32 kbit/s Nên nó không được sử dụng rộng rãi mà chỉ sử dụng cho các thiết bị nhân mạch số lâu đời.

G.726 Là chuẩn mã hóa tiếng nói ITU-T ADPCM truyền âm thanh với các 16,24,32và 40 kbps (thay thế cho G.721(32kbps) và G.723(24vs 40 kbps)) Hoạt động với tần số 16kbps.Bốn tốc độ bit thường sử dụng cho chuẩn G.726 tương ứng với kích thước của 1 mẫu là 2-bits, 3-bits, 4- bits, 5-bits Tốc độ thường dùng 32kbps

Trang 12

- Là chuẩn mã hóa tiếng nói ITU-T ADPCM truyền âm thanh với các 16,24,32và 40 kbps(thay thế cho cả G.721(32kbps) G.723(24vs 40 kbps)

- G.726 hoạt động với tần số 16kbps.Bốn tốc độ bit thường sử dụng cho chuẩn G.726 tương ứng với kích thước của 1 mẫu là 2-bits, 3-bits, 4- bits, 5-bits Tốc độ thường dùng 32kbps

5 Chuẩn G.729

G.729 là : 1 giải thuật nén dữ liệu âm thanh dùng cho tín hiệu thoại, nén tín hiệu âm thanh với khung 10 mili giây Đa số dùng trong các ứng dụng Voice overIP với yêu cầu bang tần thấp Chuẩn G.729 hoạt động với tốc độ 8kbps(6.4kbps vs 11.8kbps) Nó có 2 dạng là G.729a và

G.729b Cả 2 dạng đều hoạt động ở băng tần thấp và ngày nay người ta phát triển chuẩn G.729.1 hoạt động ở băng tần rộng

GSM là chuẩn phổ biến của điện thoại di động GSM khác với các chuẩn tiền thân của nó về cả tín hiệu , tốc độ , chất lượng cuộc gọi Nó được xem như hệ thống điện thoại di động thế hệ thứ 2 GSM là chuẩn mở

Trang 13

được phát triển.Thuận lợi là khả năng triển khai thiết bị từ nhiều người cung cấp Một số đặc tính của GSM là:

-Nói chuyện quốc tế

-Chất lượng thoại cao

3 Enhanced Full-Rate codec

4 Adaptive Multi-Rate codec

5 Adaptive Multi Wideband –Rate codec

-Bộ FR codec là bộ mã hóa đầu tiên của GSM Được sử dung lần đầu vào năm 1989 nó sử dụng 13kbit/s cho mã hóa âm thoại và 9.8 kbit/s cho

mã hóa kênh FR là bộ codec mặc định cho cung cấp dịch vụ thoại GSM -Bộ HR codec tiết kiệm dung lượng kênh hoạt động ở 5.6kbit/s cho mã hóa thoại và 5.8kbit/s cho mã hóa kênh chất lượng thoại vấn như chuẩn codec FR.

-Bộ ERF codec được sử dụng đầu tiên ở Mỹ vào năm 1996 sử dụng 12.2 kbit/s mã hóa âm thoại và 10.6kbit/s mã hóa kênh

-Bộ AMR codec là sự phát triển vượt bậc của GSM đây là bộ mã hóa mặc định cho chế độ 3G.

-Bộ AMR-WB codec là bộ mã hóa cuối cùng gần nhất đặc trưng cho thoại 3G, băng tần rộng giúp cải tiến chất lượng âm thanh thoại

Ứng dụng thực tế:

- "libgsm" đã được phát triển 1992-1994 của Jutta Degener và Carsten Bormann, sau đó tại Technische Universität Berlin dựa vào chuẩn GSM 06.10

- Các codec libgsm miễn phí có thể mã hóa và giải mã GSM Full Rate

âm thanh

- Ngoài ra còn có một plugin Winamp cho GSM 06,10 dựa trên libgsm

Trang 14

- Các GSM 06,10 cũng được sử dụng trong phần mềm VoIP, ví dụ như

trong Ekiga, QuteCom, Linphone, Asterisk (PBX), Ventrilo và những

phần mềm khác.

Bảng đánh giá hiệu năng của các chuẩn nén ITU:

32 kbit/s

13kbit/

s

4.8 kbit/s

Trang 15

C- Phân tích một sơ đồ mã hóa tiếng nói thoại theo chuẩn ITU G726

 Sơ đồ mã hóa G.726 sử dụng thuật toán ADPCM( điều chế xung mã vi sai thích ứng )

Kỹ thuật ADPCM (adaptive Differential Pulse Code Modulation) : là

phương pháp mở rộng của DPCM Người ta vẫn dùng 1 số bit nhất định để

mã hóa sự sai khác giữa tín hiệu tại 2 thời điểm kề nhau , nhưng bước lượng tử có thể được điều chỉnh tại các thời điểm khác nhau để tối ưu hóa việc điều chế.Với mục tiêu làm giảm tốc độ bit hơn nữa chất lượng tín hiệu tương đương , người ta sử dụng phương pháp thích nghi động giá trị của bước lượng tử trước những thay đổi của bien độ tín hiệu vào Mục đích là duy trì miền giá trị luowngjtuwr phù hợp với miền giá trị tín hiệu vào Thích nghi bước lượng tử có thể áp dụng cho cả kiểu lượng tử đều và không đều.

Định dạng
Số trang	31
Dung lượng	523,86 KB