Trang 1 Các Thành Viên:Lê Huy DưỡngLê Thị Lân Lớp ĐH Tin3A-Nhóm 18Giảng viên:TS.Trần Bích ThảoBài Thảo Luận Trang 2 Nội dung báo cáoChuẩn nén tiếng nói Trang 3 Mở đầu – Giới thiệu chu
Bài Thảo Luận Truyền Thông Đa Phương Tiện Lớp ĐH Tin3A-Nhóm 18 Giảng viên:TS.Trần Bích Thảo Các Thành Viên: Lê Huy Dưỡng Lê Thị Lân Nội dung báo cáo Chuẩn nén tiếng nói (ITU-TG.7xx) Mở đầu – Giới thiệu chung Nén liệu âm nói chung liệu tiếng nói nói riêng nhà khoa học, công nghệ giới quan tâm nghiên cứu, kết đạt được ứng dụng nhiều lĩnh vực truyền thơng giải trí Trong lĩnh vực nén âm thanh, người ta biết đến chuẩn nén tiếng dòng họ nén MPEG, MP3, JPEG đặc điểm chung thuật toán nén là: hiệu suất nén cao, chất lượng âm sau giải nén tốt Tuy nhiên tính phức tạp thuật tốn nên q trình nén giải nén ln phải tách thành hai trình riêng biệt Đặc điểm làm cho thuật tốn khơng thể sử dụng trường hợp cần nén giải nén trực tuyến Vì vậy, việc tìm kiếm thiết lập thuật tốn nén giải nén thực trực tuyến vấn đề thời • Hiệp hội viễn thông quốc tế, ITU-T ( International Telecommunication Union – Telecommunication ) đưa chuẩn nén âm – tiếng nói G711, G718, G729, G723.1 v.v… dành cho băng thông thoại thấp với tần số 300 Hz đến 3,4kHz Các khuyến nghị G.7xx sử dụng hệ thống truyền dẫn kỹ thuật số, đặc biệt, sử dụng để mã hóa tín hiệu tương tự thành tín hiệu số Tất chuẩn dựa chuẩn mã hóa CELP (Code-Excited Linear Prediction) Chuẩn nén âm - tiếng nói tiêu chuẩn hóa mã ANSI-C với lý chính: - Độ tin cậy tương tác thiết bị - Giá thành thấp tiện ích thực thi dựa 16 bit fixpoint DSP Đặc điểm tiếng nói Về Vềnguyên nguyêntắc tắccác cácphương phươngpháp phápnén nénaudio audiođều có cóthể thểdùng dùngđể đểnén nénâm âmthanh tiếng tiếngnói nói–gọi –gọitắt tắttiếng tiếngnói nói Tuy Tuynhiên nhiênngười ngườita tacó cóthể thểlợi lợidụng dụngmột mộtsố sốđặc đặctính tính tiếng tiếngnóicủa nóicủacon conngười ngườiđể đểnén nénhiệu hiệuquả quảhơn Dưới Dướiđây đâylàlàmột mộtsố sốtính tínhchất chấtcủa củatiếng tiếngnói nói:: 1.Tiếng 1.Tiếngnói nóicủa củacon conngười ngườicó cósự sựthay thayđổi đổivề vềđộ độto tonhỏ nhỏ (pitch, (pitch,loundness) loundness)chậm chậmhơn hơnso sovới vớicác cácthiết thiếtbị bị 2.Khi Khi nói, nói, ta tacó cóthể thểthu thubằng bằngmicrophone microphonevà vàcó cóthể thểlấy lấyđược cácmẫu, mẫu,các cácmẫu mẫucạnh cạnhnhau nhautương tươngđối đốigiống giốngnhau, nhau, thậmchí chícác cácmẫu mẫucách cáchnhau nhaukhoảng khoảng20 20ms mscó cósự sựtương tươngquan quan rấtmạnh mạnh(strongly (stronglycorrelated) correlated),,sự sựtương tươngquan quannày làlàcơ cơsở sởcủa củanhiều nhiềukiểu kiểunén néntiếng tiếngnói nói Đặc điểm tiếng nói (tiếp) 3.Chu Chukỳ kỳsóng sóngâm âmcủa tiếng tiếngnói nói nói nóichung chunglàlàdài dài Chúng Chúngta tacần cầnlưu lưuýýrằng rằngkhả khảnăng năngnghe nghecủa củatai taingười ngườilàlàtừ từ 16 16Hz Hzđến đến22.000 22.000Hz, Hz,trong trongkhi khiđó đósóng sóngâm âmcủa củatiêng tiêngnói nói có cótần tầnsố sốtừ từ500 500Hz Hzđến đến20.000 20.000Hz Hz 4.Tân Tânsố sốnày nàycho chochu chukỳ kỳcó cóđộ độdài dàilàlà22ms msđến đến20 20ms ms chu chukỳ kỳnhư nhưvậy vậyrất rấtdài dàinó nólàlàcơ cơsở sởcho cho mộtsố sốkỹ kỹthuật thuậtnén nén 5.Với Vớitiếng tiếngnói nóingười ngườita tachỉ chỉmã mãvới vớitần tầnsố sốlấy lấymẫu mẫu88KHz KHz Nếu Nếudùng dùng12 12bit/mẫu bit/mẫuta tacó có12 12xx8000=98 8000=98kbps kbps Khi Khiđó đótiếng tiếngnói nóiđược đượckhơi khơiphục phụcgần gầnnhư nhưtự tựnhiên nhiên Thuật tốn nén liệu tiếng nói trực tuyến Ý tưởng Chúng ta biết đồ thị biểu diễn lượng tiếng nói đường cong liên tục hình sin đường cong hình sin cấu thành từ khúc cong đơn điệu Chúng ta dùng đoạn thẳng thay cho khúc cong đơn điệu ý tưởng thuật tốn Hình Biểu diễn khúc cong hình sin đoạn thẳng AB, BC, CD Mơ tả thuật toán TT1 Giả sử liệu tiếng nói dãy S={s1, s2, , sL}, L∈N, si ∈R Ta xét dãy liên tiếp củaS: {sm, N, si ∈N, si ∈R Ta xét dãy liên tiếp củaS: {sm, R Ta xét dãy liên tiếp củaS: {sm, sm+1, , sm+n-1}, 1≤m≤L-n+1, n>0, (hình 2) Khi đó, thay phải lưu trữ n giá trị dãy ta lưu trữ giá trị sm, sm+n-1 n Nhận xét Hình Biểu diễn dãy n điểm liên tiếp khúc cong đơn điệu Thuật tốn làm việc trực tuyến trình nén thực hai thao tác chủ yếu so sánh hai tín hiệu liên tiếp đếm Hình Sơ đồ khối thuật tốn TT1 Đầu vào: Dãy tín hiệu tiếng nói Đầu ra: Các véctơ có dạng (A,B,n) tương ứng phần tử đầu, cuối số phần tử dãy đơn điệu Dấu: nhận giá trị +1 -1 biểu thị dãy khơng tăng hay giảm, s: lưu giá trị tín hiệu, Y1, Y2: lưu hai giá trị liên tiếp tín hiệu A, B: lưu giá trị đầu cuối dãy đơn điệu n: lưu số phần tử dãy đơn điệu Thuật toán giải nén ứng với thuật toán TT1 Dữ liệu nén dạng (A, B, n) thuật toán TT1 thực giải nén cách nội suy tuyến tính n điểm cách với giá trị đầu, cuối tương ứng A, B Ký hiệu (y1, y2, , yn) n giá trị giải nén Khi đó: yi=A+(i-1)*(B-A)/(n-1), với n>1, i=1 n Ký hiệu thuật toán giải nén ứng với thuật toán TT1 thuật toán TT2 Sơ đồ khối thuật toán giải nén TT2 Đầu vào: Các véc tơ chứa liệu nén dạng (A, B, n), tương ứng phần tử đầu, cuối sốphần tử dãy đơn điệu Đầu ra: n giá trị giải nén chứa mảng y Thuật toán CS-ACELP LPC tổng hợp tiếng nói Mã dự báo tuyến tính LPC (Linear Predictive Coding) phương pháp khác hoàn toàn với phương pháp PCM, DPCM ADPCM để tái số tín hiệu tương tự Phương pháp dùng lọc ngang (hay mạch số tương đương) cộng thành phần phụ để tổng hợp dạng sóng theo yêu cầu Các tham số dạng sóng tổng hợp số hóa để truyền thay tín hiệu thực Xét hiệu kết trình tổng hợp xác hồn tồn với tiến trình tương tự Vì có thơng số tiếng nói, LPC đặc biệt thích hợp với tổng hợp tiếng nói tạo tiếng nói Tổng hợp tiếng nói Hình mơ tả q trình tổng hợp tiếng nói bao gồm hai nguồn phát đầu vào, khuếch đại thay đổi độ lợi,và lọc ngang vòng hồi tiếp Độ lợi khuếch đại lọc nhánh điều chỉnh để định dạng tính chất âm (diễn đạt) dãi âm tần Những tiếng có âm nối vào nguồn phát dãy xung đơn với tần số thích hợp với độ cao Nếu lọc có khoảng 10 nhánh độ lợi, tham số thu thập khoảng 10 đến 25ms, q trình tổng hợp tiếng nói dễ dàng giả tạo Hệ thống LPC- mạch phát Hệ thống LPC – mạch thu Xét hệ thống phát LPC Các giá trị mẫu tiếng nói đầu vào phân tích để tìm tham số tổng hợp, toàn giá trị so sánh với đầu vào Các kết sai khác mã hóa theo giá trị tham số từ tín hiệu số truyền Bộ thu hệ thống dùng giá trị tham số sai số lượng tử để tái tạo lại dạng sóng âm Một số chuẩn nén tiếng nói thuộc họ ITU – TG.7XX Họ Họtiêu tiêuchuẩn chuẩnG.7xx G.7xxmã mãhóa hóavà giải giảimã mãâm âmthanh thanh(tiếng (tiếngnói) nói) chủ chủyếu yếuđược đượcsử sửdụng dụngtrong điện điệnthoại thoạidi diđộng độngvà điện điệnthoại thoạiInternet Internet bao baogồm gồmkết kếtnối nốiVoIP VoIP Có Cómột mộtsố số giao giaothức thứctrong họ họG.7xxcủa G.7xxcủabộ bộGG mà màITU ITUkhuyến khuyếnnghị nghị Chuẩn Chuẩnnén nénG.711 G.711 Chuẩn Chuẩnnén nénG.718 G.718 Chuẩn Chuẩnnén nénG.719 G.719 Chuẩn Chuẩnnén nénG.723 G.723 Chuẩn Chuẩnnén nénG.729 G.729 … … Chuẩn nén G.711: Giới thiệu: • Chuẩn G.711 chuẩn nén âm sử dụng rộng rãi cho hội nghị âm Chuẩn mơ tả phương pháp mã hố giải mã âmthanh với tốc độ 64Kbps Tốc độ lấy mẫu: • Một giá trị đề nghị tần số lấy mẫu 8000 samples/giây Độsai sót thường +/- 50 phần triệu Chuẩn nén G.711 Quy luật mã hoá: Mỗi mẫu âm số nhị phân có tám bit sử dụng cho phạm vi tồn cầu ITU – T đưa hai quy luật mã hóa mã hóa theo quy luậtA mã hóa theo quy luật μ Khi sử dụng luật mã hóa μ mạng truyền thơng việc chặn tất tín hiệu ký tự yêu cầu thiết Giá trị lượng tử hóa kết luật mã hóa Bất chuyển đổi cần thiết quốc gia sử dụng quy luật μ Sự chuyển đổi PCM: Giá trị ấn định (decision value) giá trị lượng tử (quantizer value) A-law kết hợp với giá trị đồng dạng PCM Sự chuyển đổi từ A-law μ-law từ giá trị đồng dạng PCM tương ứng với giá trị ấn đinh phần định giá trị riêng lẽ Truyền tín hiệu ký tự: Khi tín hiệu ký tự truyền tầng vật lý, bit số (bit dấu) truyền trước tiên bit số (bit có ý nghĩa nhất) truyền cuối Chuẩn nén G.718 Chuẩn G.718:mô tả băng hẹp (NB) băng rộng (WB ) nhúng biến đổi tốc độ bit mã hóa thuật tốn cho giọng nói hoạt động âm khoảng từ đến 32 kbit / s thiết kế mã để xóa khung truuyền Codec có cấu trúc nhúng có khả mở rộng, cho phép linh hoạt tối đa việc vận chuyển gói tin giọng nói thơng qua mạng IP Ngồi ra, cấu trúc nhúng ITU - T G.718 dễ dàng cho phép codec mở rộng để cung cấp khả siêu băng rộng âm thông qua lớp bổ sung phát triển Luồng bit giảm xuống phía giải mã thành phần hệ thống thông tin liên lạc điều chỉnh tốc độ bit với giá trị mong muốn mà khơng cần tín hiệu băng thơng Bộ mã hóa cho luồng bit có cấu trúc nhúng năm lớp tương ứng với tốc độ bit có sẵn : 8, 12 , 16, 24 32 kbit / s Chuẩn nén G.718 ITU-T ITU-TG.718 G.718mã mãhóa hóacó cóthể thểchấp chấpnhận nhận cáctín tínhiệu hiệubăng băngthơng thơngrộng rộnglấy lấymẫu mẫu16 16kHz kHz, , hoặctín tínhiệu hiệubăng băngthơng thơnghẹp hẹplấy lấymẫu mẫutại 16kHz 16kHzhay haykHz kHz88 .Tương Tươngtự tựnhư nhưvậy, vậy, đầu giải mã 16 kHz đầu giải mã 16 kHz(WB) (WB), , ngoài16kHz 16kHzhoặc hoặc8kHz 8kHz(NB) (NB) Tín Tínhiệu hiệuđầu đầuvào vàolấy lấymẫu mẫutại tại16 16kHz kHz, , nhưngvới vớibăng băngthông thônggiới giớihạn hạncho cho(NB), (NB), đượcphát pháthiện hiệnbởi bởibộ bộmã mãhóa hóa Đầu Đầuraracủa củacác cáccodec codecG.718 G.718ITU ITU–T –T có cókhả khảnăng nănghoạt hoạtđộng độngvới vớimột mộtbăng băngthông thông của300-3400Hz 300-3400Hztại tại88và và12kbit 12kbit//s;s; 50-7000Hz 50-7000Hztại tại88đến đến32 32kbit kbit//s.s Cốt Cốtlõi lõicodec codecchất chấtlượng lượngcao cao thể thểhiện hiệnmột mộtcải cảitiến tiếnhiệu hiệu suất suấtđáng đángkể kể, ,cung cungcấp cấpbăng băng rộng rộng88kbit kbit//sschất chấtlượng lượng giọng nói tương giọng nói tươngđương đương cáccodec codecITU-T ITU-TG.722.2 G.722.2tại 12,65 12,65kbit kbit//sstrong trongkhi khi88 kbit kbit//sschế chếđộ độbăng bănghẹp hẹpbộ codec codechoạt hoạtđộng độngcung cungcấp cấp giọng nói chất lượng giọng nói chất lượng tương tươngđương đươngvới vớiITUITU-TT G.729E G.729Ecodec codecởở11,8 11,8kbit kbit//s.s • Codec hoạt động khung truyền 20 ms có độ trễ tối đa khung truyền 42,875 ms cho tín hiệu đầu vào tín hiệu đầu băng rộng Độ trễ tối đa cho tín hiệu đầu vào đầu băng hẹp 43,875 ms Codec sử dụng chế độ có độ trễ thấp mã hóa giải mã tốc độ bit tối đa thiết lập đến 12 kbit / s Trong trường hợp , độ trễ tối đa giảm 10 ms • Codec kết hợp chế độ mã hóa thay thế, với tỷ lệ bit tối thiểu 12,65 kbit / s, luồng bit tương thích với chuẩn ITU - T G.722.2 : điện thoại di động 3GPP AMR- WB 3GPP2 VMR -WB WB tiêu chuẩn mã hóa giọng nói Tùy chọn thay lớp lớp , lớp 3-5 tương tự tùy chọn mặc định với trường hợp ngoại lệ lớp bit sử dụng để bù cho bit đặc biệt 12,65 kbit/s lõi Bộ giải mã tiếp tục có khả giải mã tất ITU T chế độ hoạt động khác G.722.2 Hơn nữa, phụ lục chuẩn phát triển có hiệu cho phép luồng bit có khả tương tác với EVRC WB 3GPP2 codec Chuẩn bao gồm chế độ truyền dẫn không liên tục ( DTX) thuật toán phát sinh tiếng ồn thoải mái (CNG) cho phép tiết kiệm băng thông suốt thời gian không hoạt động Tích hợp thuật tốn giảm tiếng ồn sử dụng phiên giao tiếp với giới hạn đến 12 kbit / s