Bài Thảo Luận Truyền Thông Đa Phương Tiện

Trang 1 Các Thành Viên:Lê Huy DưỡngLê Thị Lân Lớp ĐH Tin3A-Nhóm 18Giảng viên:TS.Trần Bích ThảoBài Thảo Luận Trang 2 Nội dung báo cáoChuẩn nén tiếng nói Trang 3 Mở đầu – Giới thiệu chu

Trang 1

Các Thành Viên:

Lê Huy Dưỡng

Lê Thị Lân

Lớp ĐH Tin3A-Nhóm 18

Giảng viên:TS.Trần Bích Thảo

Bài Thảo Luận

Truyền Thông Đa Phương Tiện

Trang 2

Nội dung báo cáo

Chuẩn nén

tiếng nói

(ITU-TG.7xx)

Trang 3

Mở đầu – Giới thiệu chung

Nén dữ liệu âm thanh nói chung và dữ liệu tiếng nói nói riêng đã và đang được các nhà khoa học, công nghệ trên thế giới quan tâm nghiên cứu, các kết quả đạt được đã được ứng dụng nhiều trong lĩnh vực truyền thông và giải trí Trong lĩnh vực nén âm thanh, người ta đã từng biết đến các chuẩn nén khá nổi tiếng như dòng họ nén

MPEG, MP3, JPEG đặc điểm chung của các thuật toán nén trên là: hiệu suất nén cao, chất lượng âm thanh sau khi giải nén tốt

Nén dữ liệu âm thanh nói chung và dữ liệu tiếng nói nói riêng đã và đang được các nhà khoa học, công nghệ trên thế giới quan tâm nghiên cứu, các kết quả đạt được đã được ứng dụng nhiều trong lĩnh vực truyền thông và giải trí Trong lĩnh vực nén âm thanh, người ta đã từng biết đến các chuẩn nén khá nổi tiếng như dòng họ nén

MPEG, MP3, JPEG đặc điểm chung của các thuật toán nén trên là: hiệu suất nén cao, chất lượng âm thanh sau khi giải nén tốt

Tuy nhiên do tính phức tạp của các thuật toán đó nên quá trình nén và giải nén luôn phải tách thành hai quá trình riêng biệt Đặc điểm này làm cho các thuật

toán trên không thể sử dụng trong các trường hợp cần nén và giải nén trực tuyến

Vì vậy, việc tìm kiếm và thiết lập các thuật toán nén và giải nén có thể thực hiện trực tuyến đã và đang là vấn đề thời sự

Tuy nhiên do tính phức tạp của các thuật toán đó nên quá trình nén và giải nén luôn phải tách thành hai quá trình riêng biệt Đặc điểm này làm cho các thuật

toán trên không thể sử dụng trong các trường hợp cần nén và giải nén trực tuyến

Vì vậy, việc tìm kiếm và thiết lập các thuật toán nén và giải nén có thể thực hiện trực tuyến đã và đang là vấn đề thời sự

Trang 4

• Hiệp hội viễn thông quốc tế, ITU-T ( International

Telecommunication Union – Telecommunication ) đã đưa

ra những chuẩn nén âm thanh – tiếng nói mới nhất như G711, G718, G729, G723.1 v.v… dành cho băng thông thoại thấp với tần số 300 Hz đến 3,4kHz Các khuyến nghị G.7xx được sử dụng trong hệ thống truyền dẫn kỹ thuật số, và

đặc biệt, được sử dụng để mã hóa tín hiệu tương tự thành tín hiệu số Tất cả các chuẩn này đều dựa trên chuẩn mã hóa CELP (Code-Excited Linear Prediction) Chuẩn nén âm thanh - tiếng nói đã được tiêu chuẩn hóa trong mã ANSI-C với 2 lý do chính:

- Độ tin cậy khi tương tác giữa các thiết bị

- Giá thành thấp và những tiện ích thực thi dựa trên 16 bit

fixpoint DSP

Trang 5

Đặc điểm của tiếng nói

Về nguyên tắc các phương pháp nén audio đều

có thể dùng để nén âm thanh tiếng nói –gọi tắt tiếng nói.

Tuy nhiên người ta có thể lợi dụng một số đặc tính

tiếng nóicủa con người để nén hiệu quả hơn.

Dưới đây là một số tính chất của tiếng nói :

Về nguyên tắc các phương pháp nén audio đều

có thể dùng để nén âm thanh tiếng nói –gọi tắt tiếng nói.

Tuy nhiên người ta có thể lợi dụng một số đặc tính

tiếng nóicủa con người để nén hiệu quả hơn.

Dưới đây là một số tính chất của tiếng nói :

1.Tiếng nói của con người có sự thay đổi về độ to nhỏ

(pitch, loundness) chậm hơn so với các thiết bị.

1.Tiếng nói của con người có sự thay đổi về độ to nhỏ

(pitch, loundness) chậm hơn so với các thiết bị.

2 Khi nói, ta có thể thu bằng microphone và có thể lấy được các mẫu, các mẫu cạnh nhau tương đối giống nhau,

thậm chí các mẫu cách nhau khoảng 20 ms có sự tương quan rất mạnh (strongly correlated) , sự tương quan này

là cơ sở của nhiều kiểu nén tiếng nói

2 Khi nói, ta có thể thu bằng microphone và có thể lấy được các mẫu, các mẫu cạnh nhau tương đối giống nhau,

thậm chí các mẫu cách nhau khoảng 20 ms có sự tương quan rất mạnh (strongly correlated) , sự tương quan này

là cơ sở của nhiều kiểu nén tiếng nói

Trang 6

Đặc điểm của tiếng nói (tiếp)

3 Chu kỳ sóng âm của tiếng nói nói chung là dài

Chúng ta cần lưu ý rằng khả năng nghe của tai người là từ

16 Hz đến 22.000 Hz, trong khi đó sóng âm của tiêng nói

có tần số từ 500 Hz đến 20.000 Hz

3 Chu kỳ sóng âm của tiếng nói nói chung là dài

Chúng ta cần lưu ý rằng khả năng nghe của tai người là từ

16 Hz đến 22.000 Hz, trong khi đó sóng âm của tiêng nói

có tần số từ 500 Hz đến 20.000 Hz

4 Tân số này cho chu kỳ có độ dài là 2 ms đến 20 ms

chu kỳ như vậy rất dài nó là cơ sở cho

một số kỹ thuật nén.

4 Tân số này cho chu kỳ có độ dài là 2 ms đến 20 ms

chu kỳ như vậy rất dài nó là cơ sở cho

một số kỹ thuật nén.

5 Với tiếng nói người ta chỉ mã với tần số lấy mẫu 8 KHz Nếu dùng 12 bit/mẫu ta có 12 x 8000=98 kbps

Khi đó tiếng nói được khôi phục gần như tự nhiên.

5 Với tiếng nói người ta chỉ mã với tần số lấy mẫu 8 KHz Nếu dùng 12 bit/mẫu ta có 12 x 8000=98 kbps

Khi đó tiếng nói được khôi phục gần như tự nhiên.

Trang 7

Thuật toán nén dữ liệu tiếng nói trực tuyến

Trang 8

Mô tả thuật toán TT1

Giả sử dữ liệu của tiếng nói là dãy S={s1, s2, , sL},

L N, si R Ta xét dãy con liên tiếp củaS: {sm, ∈N, si ∈R Ta xét dãy con liên tiếp củaS: {sm, ∈N, si ∈R Ta xét dãy con liên tiếp củaS: {sm,

sm+1, , sm+n-1}, 1≤m≤L-n+1, n>0, (hình 2) Khi

đó, thay vì phải lưu trữ n giá trị của dãy con này ta chỉ lưu trữ các giá trị sm, sm+n-1 và n.

Hình 2 Biểu diễn

dãy con n điểm

liên tiếp của

vì quá trình nén chỉ thực hiện hai

thao tác chủ yếu là so sánh hai tín hiệu liên tiếp và đếm.

Trang 9

Hình 3 Sơ đồ khối thuật toán TT1.

Đầu vào: Dãy tín hiệu tiếng nói.

Đầu ra: Các véctơ có dạng (A,B,n) tương ứng là phần tử đầu, cuối và số phần tử của dãy con đơn điệu

Dấu: nhận giá trị +1 hoặc -1 biểu thị dãy con không tăng hay giảm,

s: lưu giá trị tín hiệu, Y1, Y2: lưu hai giá trị liên tiếp của tín hiệu

A, B: lưu giá trị đầu và cuối của dãy con đơn điệu

n: lưu số phần tử của dãy con đơn điệu

Đầu vào: Dãy tín hiệu tiếng nói.

Đầu ra: Các véctơ có dạng (A,B,n) tương ứng là phần tử đầu, cuối và số phần tử của dãy con đơn điệu

Dấu: nhận giá trị +1 hoặc -1 biểu thị dãy con không tăng hay giảm,

s: lưu giá trị tín hiệu, Y1, Y2: lưu hai giá trị liên tiếp của tín hiệu

A, B: lưu giá trị đầu và cuối của dãy con đơn điệu

n: lưu số phần tử của dãy con đơn điệu

Trang 10

Thuật toán giải nén ứng với thuật toán TT1

Dữ liệu nén dạng (A, B, n) do thuật toán TT1 thực hiện được giải nén bằng cách nội suy tuyến tính n điểm cách đều với giá trị đầu, cuối tương ứng là A,

B Ký hiệu (y1, y2, , yn) là n giá trị được giải nén Khi đó:

yi=A+(i-1)*(B-A)/(n-1), với n>1, i=1 n.

Ký hiệu thuật toán giải nén ứng với thuật toán TT1

là thuật toán TT2

Trang 11

Sơ đồ khối thuật toán giải nén TT2

Đầu vào: Các véc tơ chứa dữ liệu nén dạng (A, B, n),

tương ứng là phần tử đầu, cuối và sốphần

tử của dãy con đơn điệu

Đầu ra: n giá trị

đã được giải nén chứa trong mảng y

Trang 12

Thuật toán CS-ACELP

LPC tổng hợp tiếng nói

Mã dự báo tuyến tính LPC (Linear Predictive Coding) là một phương pháp mới khác hoàn toàn với các phương pháp PCM, DPCM và ADPCM để tái hiện bằng số các tín hiệu tương tự Phương pháp này dùng bộ lọc ngang (hay các mạch số tương đương) cộng các thành phần phụ để tổng hợp dạng sóng theo yêu cầu Các tham số của dạng sóng tổng hợp được số hóa để truyền đi thay vì tín hiệu thực sự Xét hiệu quả các kết quả nếu quá trình tổng hợp chính xác hoàn toàn với tiến trình tương tự

Vì nó đã có thông số tiếng nói, LPC đặc biệt thích hợp với tổng hợp tiếng nói và tạo tiếng nói.

LPC tổng hợp tiếng nói

Mã dự báo tuyến tính LPC (Linear Predictive Coding) là một phương pháp mới khác hoàn toàn với các phương pháp PCM, DPCM và ADPCM để tái hiện bằng số các tín hiệu tương tự Phương pháp này dùng bộ lọc ngang (hay các mạch số tương đương) cộng các thành phần phụ để tổng hợp dạng sóng theo yêu cầu Các tham số của dạng sóng tổng hợp được số hóa để truyền đi thay vì tín hiệu thực sự Xét hiệu quả các kết quả nếu quá trình tổng hợp chính xác hoàn toàn với tiến trình tương tự

Vì nó đã có thông số tiếng nói, LPC đặc biệt thích hợp với tổng hợp tiếng nói và tạo tiếng nói.

Trang 13

Nếu bộ lọc có khoảng 10 nhánh độ lợi, và các tham số được thu thập khoảng 10 đến 25ms, quá trình tổng hợp tiếng nói rất dễ dàng mặc dù hơi giả tạo.

Trang 14

Hệ thống LPC- mạch phát

Hệ thống LPC – mạch thu

Xét hệ thống phát LPC Các giá trị mẫu của tiếng nói ở đầu vào được phân tích để tìm

ra các tham số tổng hợp, toàn bộ các giá trị ra so sánh với đầu vào Các kết quả sai khác được mã hóa theo các giá trị tham số từ tín hiệu số được truyền Bộ thu trong hệ thống dùng các giá trị tham số và sai số lượng tử để tái tạo lại dạng sóng âm thanh.

Trang 15

Một số chuẩn nén tiếng nói thuộc họ

ITU – TG.7XX

Họ tiêu chuẩn G.7xx mã hóa và

giải mã âm thanh (tiếng nói)

chủ yếu được sử dụng trong

điện thoại di động và

điện thoại Internet

bao gồm kết nối VoIP.

Có một số giao thức trong

họ G.7xxcủa bộ G

mà ITU khuyến nghị

Họ tiêu chuẩn G.7xx mã hóa và

giải mã âm thanh (tiếng nói)

chủ yếu được sử dụng trong

điện thoại di động và

điện thoại Internet

bao gồm kết nối VoIP.

Có một số giao thức trong

họ G.7xxcủa bộ G

mà ITU khuyến nghị

Chuẩn nén G.711 Chuẩn nén G.718 Chuẩn nén G.719 Chuẩn nén G.723 Chuẩn nén G.729

…

Chuẩn nén G.711 Chuẩn nén G.718 Chuẩn nén G.719 Chuẩn nén G.723 Chuẩn nén G.729

…

Trang 17

Chuẩn nén G.711

Quy luật mã hoá:

Mỗi mẫu âm thanh là một số nhị phân có tám

bit được sử dụng cho phạm vi toàn cầu ITU –

T đưa ra hai quy luật mã hóa là mã hóa theo

quy luậtA và mã hóa theo quy luật μ.

Khi sử dụng luật mã hóa μ trong mạng truyền

thông thì việc chặn tất cả các tín hiệu ký tự 0 là

yêu cầu nhất thiết Giá trị lượng tử hóa là kết

quả của luật mã hóa Bất cứ sự chuyển đổi cần

thiết giữa các quốc gia đều sử dụng quy luật μ.

Sự chuyển đổi PCM: Giá trị ấn định (decision

value) và giá trị lượng tử (quantizer value) của

A-law được kết hợp với giá trị đồng dạng PCM

Sự chuyển đổi từ A-law hoặc μ-law từ giá trị

đồng dạng PCM tương ứng với giá trị ấn đinh

là một phần chỉ định của giá trị riêng lẽ

Truyền tín hiệu ký tự:

Khi tín hiệu ký tự được truyền tuần tự trong một tầng vật lý, bit số 1 (bit dấu) được truyền trước tiên và bit số 8 (bit ít có ý nghĩa nhất) được

truyền cuối cùng

Trang 18

Chuẩn G.718:mô tả một băng hẹp (NB) và băng rộng (WB ) đã được nhúng

biến đổi tốc độ bit mã hóa thuật toán cho giọng nói và hoạt động âm thanh trong khoảng từ 8 đến 32 kbit / s được thiết kế mã để xóa khung truuyền

Chuẩn G.718:mô tả một băng hẹp (NB) và băng rộng (WB ) đã được nhúng

biến đổi tốc độ bit mã hóa thuật toán cho giọng nói và hoạt động âm thanh trong khoảng từ 8 đến 32 kbit / s được thiết kế mã để xóa khung truuyền

Codec này có một cấu trúc nhúng có khả năng mở rộng, cho phép sự linh hoạt tối đa trong việc vận chuyển các gói tin bằng giọng nói thông qua mạng IP Ngoài ra, cấu trúc nhúng của ITU - T G.718 sẽ dễ dàng cho phép các codec được mở rộng để cung cấp một khả năng siêu băng rộng và âm thanh nổi thông qua các lớp bổ sung đang được phát triển Luồng bit có thể được giảm xuống ở phía bộ giải mã hoặc bất cứ thành phần nào của hệ thống thông tin liên lạc ngay lập tức điều chỉnh tốc độ bit với giá trị mong muốn mà không cần tín hiệu ra của băng thông Bộ mã hóa cho ra một luồng bit có cấu trúc nhúng trong năm lớp tương ứng với tốc độ bit có sẵn : 8, 12 , 16, 24 và

32 kbit / s

Codec này có một cấu trúc nhúng có khả năng mở rộng, cho phép sự linh hoạt tối đa trong việc vận chuyển các gói tin bằng giọng nói thông qua mạng IP Ngoài ra, cấu trúc nhúng của ITU - T G.718 sẽ dễ dàng cho phép các codec được mở rộng để cung cấp một khả năng siêu băng rộng và âm thanh nổi thông qua các lớp bổ sung đang được phát triển Luồng bit có thể được giảm xuống ở phía bộ giải mã hoặc bất cứ thành phần nào của hệ thống thông tin liên lạc ngay lập tức điều chỉnh tốc độ bit với giá trị mong muốn mà không cần tín hiệu ra của băng thông Bộ mã hóa cho ra một luồng bit có cấu trúc nhúng trong năm lớp tương ứng với tốc độ bit có sẵn : 8, 12 , 16, 24 và

32 kbit / s

Trang 19

ITU-T G.718 mã hóa có thể chấp nhận

các tín hiệu băng thông rộng lấy mẫu 16 kHz ,

hoặc tín hiệu băng thông hẹp lấy mẫu tại

16kHz hay kHz 8 Tương tự như vậy,

đầu ra bộ giải mã có thể là 16 kHz (WB) ,

ngoài 16kHz hoặc 8kHz (NB)

ITU-T G.718 mã hóa có thể chấp nhận

các tín hiệu băng thông rộng lấy mẫu 16 kHz ,

hoặc tín hiệu băng thông hẹp lấy mẫu tại

16kHz hay kHz 8 Tương tự như vậy,

đầu ra bộ giải mã có thể là 16 kHz (WB) ,

ngoài 16kHz hoặc 8kHz (NB)

Tín hiệu đầu vào lấy mẫu tại 16 kHz ,

nhưng với băng thông giới hạn cho (NB),

được phát hiện bởi bộ mã hóa

Đầu ra của các codec G.718 ITU –T

có khả năng hoạt động với một băng thông

của 300-3400Hz tại 8 và 12kbit / s;

50-7000Hz tại 8 đến 32 kbit / s

Tín hiệu đầu vào lấy mẫu tại 16 kHz ,

nhưng với băng thông giới hạn cho (NB),

được phát hiện bởi bộ mã hóa

Đầu ra của các codec G.718 ITU –T

có khả năng hoạt động với một băng thông

của 300-3400Hz tại 8 và 12kbit / s;

50-7000Hz tại 8 đến 32 kbit / s

Cốt lõi codec chất lượng cao thể hiện một cải tiến hiệu suất đáng kể , cung cấp băng rộng 8 kbit / s chất lượng giọng nói sạch tương đương các codec ITU-T G.722.2 tại 12,65 kbit / s trong khi 8 kbit / s chế độ băng hẹp bộ codec hoạt động cung cấp giọng nói sạch chất lượng tương đương với ITU- T G.729E codec ở 11,8 kbit / s

Trang 20

• Codec hoạt động trên khung truyền 20 ms và có một độ trễ tối đa của khung

truyền 42,875 ms cho tín hiệu đầu vào và các tín hiệu đầu ra băng rộng Độ trễ tối đa cho tín hiệu đầu vào và đầu ra băng hẹp là 43,875 ms Codec cũng có thể được sử dụng trong một chế độ có độ trễ thấp khi bộ mã hóa và giải mã tốc độ bit tối đa được thiết lập đến 12 kbit / s Trong trường hợp này , độ trễ tối đa

được giảm 10 ms.

• Codec cũng kết hợp một chế độ mã hóa thay thế, với một tỷ lệ bit tối thiểu 12,65

kbit / s, đó là luồng bit tương thích với các chuẩn của ITU - T G.722.2 : điện thoại

di động 3GPP AMR- WB và 3GPP2 VMR -WB WB tiêu chuẩn mã hóa giọng nói Tùy chọn này thay thế lớp 1 và lớp 2 , và các lớp 3-5 là tương tự như tùy chọn mặc định với các trường hợp ngoại lệ trong lớp 3 bit ít được sử dụng để bù cho các bit đặc biệt của 12,65 kbit/s lõi Bộ giải mã là tiếp tục có khả năng giải mã tất cả ITU -

T chế độ hoạt động khác G.722.2 Hơn nữa, một phụ lục mới chuẩn này đang

được phát triển có hiệu quả sẽ cho phép luồng bit có khả năng tương tác với

EVRC WB 3GPP2 codec Chuẩn này cũng bao gồm chế độ truyền dẫn không liên tục ( DTX) và các thuật toán phát sinh tiếng ồn thoải mái (CNG) cho phép tiết

kiệm băng thông trong suốt thời gian không hoạt động Tích hợp thuật toán giảm tiếng ồn có thể được sử dụng đó là phiên giao tiếp với giới hạn đến 12 kbit / s

Trang 21

• Các thuật toán cơ bản được dựa trên một cấu trúc hai giai đoạn mã hóa : dưới hai lớp được dựa trên

mã dự đoán tuyến tính kích thích ( CELP ) mã hóa của giọng nói ( 50-6400 Hz) lớp lõi tận dụng phân

loại tín hiệu để sử dụng tối ưu hóa chế độ mã hóa cho mỗi khung truyền Các lớp cao hơn mã hóa các tín hiệu báo lỗi trọng từ các lớp thấp hơn bằng cách

sử dụng chồng chéo thêm sửa đổi cosin rời rạc

chuyển đổi ( MDCT ) chuyển đổi mã hóa

Tiêu đề	Chuẩn Nén Tiếng Nói (ITU-TG.7xx)
Tác giả	Lê Huy Dưỡng, Lê Thị Lân
Người hướng dẫn	TS. Trần Bích Thảo
Trường học	Đại Học
Chuyên ngành	Tin Học
Thể loại	bài thảo luận

Định dạng
Số trang	21
Dung lượng	328,64 KB