Cũng từ đótín hiệu tiếng nói trở thành một đối tượng và cũng là một nguồn tải lớn nhất củamạng viễn thông, cùng với sự phát triển của kỹ thuật số, các công nghệ bándẫn thì các phương phá
Trang 1Tín hiệu tiếng nói và các phương pháp mã∙ hoá
Trường ĐHGTVT - Hà Nội 1
Mục lục
Lời nói đầu 1
Chương I Tín hiệu tiếng nói 6
1 Quá trình phát âm của con người: 6
2 Đặc tính thống kê của tín hiệu tiếng nói: 9
2.1, Hàm phân bố mật độ xác suất(pdf) 10
2.2, Hàm tự tương quan(ACF) 10
2.3, Hàm mật độ phổ công suất PSD 11
3 Các mô hình biểu diễn 13
a Cơ quan phát âm (vocal tract) 13
b Mô hình sự kích thích 14
Chương II Mã hoá vùng thời gian 18
1 Công nghệ PCM: 18
Cấu hình cơ bản của kiểu truyền tin PCM: 18
Lấy mẫu: 19
Lượng tử hoá: 21
Sự nén và giãn: 22
Mã hoá và Giải mã: 25
2.Các phương pháp mã hoá khác: 27
phương pháp mã hoá DPCM ( Điều xung mã vi sai): 27
Phương pháp DM ( điều chế delta): 29
2.3 Điều chế Deta tự thích nghi (ADM): 31
3 Phương pháp mã hoá ADPCM (Điều chế xung mã vi sai thích ứng) (DAPTIVE DIFFERENTIAL PULSE CODE MODULATION ):
32 Tổng quan: 32
3.1.1 Mã hoá ADPCM(ADPCM encoder): 34
3.1.2 Giải mã ADPCM (ADPCM decoder): 34
Trang 2Tín hiệu tiếng nói và các phương pháp mã∙ hoá
Trường ĐHGTVT - Hà Nội 2
Nguyên lý mã hóa ADPCM( ADPCM encoder principles): 35
Trang 3Biến đổi định dạng đầu vào(Input PCM format conversion): 35
Tính toán tín hiệu vi sai (Difference signal computation): 35
Bộ lượng tử tương thích (Adaptive quantizer): 35
3.2.3.1 Tốc độ 40 kbps(Operation at 40 kbit/s): 35
3.2.3.2 Tốc độ 32 kbps(Operation at 32 kbit/s): 36
3.2.3.3 Tốc độ 24kbps(Operation at 24 kbit/s): 37
3.2.3.4 Tốc độ 16 kbps(Operation at 16 kbit/s): 38
Bộ lượng tử hoá tương thích ngược( Inverse adaptive quantizer): 38 Tương thích hệ số phân thang bộ lượng tử (Quantizer scale factor adaptation): 39
Điều khiển tương thích tiếng nói(Adaptation speed control): 40
Bộ tinh toán tín hiệu hồi phục và bộ phỏng đoán tương thích (Adaptive predictor and reconstructed signal calculator): 42
3.2.8 Bộ phát hiện truyền và tone (Tone and transition detector): 43
Nguyên lý giải mã ADPCM(ADPCM decoder principles): 43
Bộ lượng tử thích ứng đảo (Inverse adaptive quantizer): 43
3.3.2.Bộ lượng tử tương thích hệ số thang (Quantizer scale factor adaptation): 44
Điều khiển tốc độ thích ứng ( Adaptation speed control): 44
Bộ tính tín hiệu hồi phục và bộ tiến đoán tương thích (Adaptive predictor and reconstructed signal calculator): 44
Phát hiện truyền và tone (Tone and transition detector): 45
Biến đổi định dạng đầu ra PCM (Output PCM format conversion): 45
Điều chỉnh mã hoá đồng bộ (Synchronous coding adjustment): 45
Chương III Mã hoá vùng tần số 46
1 Mã hoá dải nhỏ(Sbc) 47
2 Mã hoá biến đổi thích nghi (ATC) 53 chương IV Phương pháp mã hoá tham số nguồn (resourd parameters method) 55
Trang 41 Bộ mã hoá nguồn theo kênh: 57
Trang 5Trường ĐHGTVT - Hà Nội 3 http://w w w.ebook.edu.vn
2 Bộ mã nguồn tiếng nói formant 57
3 Bộ mã nguồn tiếng nói phổ tách 58
4 Phương pháp dự đoán tuyến tính LPC
58 5 Bộ mã hoá nguồn tiếng nói âm thanh được kích thích 64
• Mã hoá CELP 65
A RPE- LPT (Bộ lập mã và giải mã tiên đoán thời hạn dài kích thích xung đều đặn) 68
B V-CELP (mã hoá tiên đoán kích thích xung tổng hợp): 70
C Phương pháp LD-CELP(mã hoá tiên đoán kích thích xung có độ trễ nhỏ)
73 D Phương pháp CS-ACELP 90
Chương V Phương pháp đánh giá: 107
I Kiểm tra định lượng 109
1 Tính tỉ số tín hiệu trên nhiễu(SNR): 109
2 Chỉ số độ rõ AI (articulation index): 111
3 Khoảng phổ Log 112
II Phương pháp đánh giá định tính : 113
1 Kiểm tra độ dễ hiểu : 113
2 Kiểm tra chất lượng: 116
Kết luận 120
Mục lục 121
Trang 6Trường ĐHGTVT - Hà Nội 4 http://w w w.ebook.edu.vn
Lời nói đầu
Vào năm 1892 Alexander Graham Bell khai trương tuyến điện thoại
thương mại đầu tiên trên thế giới và cho tới gần đây con người coi điệnthoại là một công cụ truyền tin hữu hiệu Nhờ điện thoại mà con người có khảnăng trao đổi thông tin giữa các điểm khác nhau trên toàn thế giới mộtcách dễ dàng Ngoài ưu thế như khả năng truyền thông tin theo thời gian thực
và dễ sử dụng, mạng điện thoại ngày nay còn có các ưu điểm rất cơ bản,
đó là được phổ biến trên toàn cầu, giúp ta có khả năng liên lạc hầu như mọiđiểm trên trái
đất, thời gian đáp ứng ngắn và thuận tiện cho người sử dụng Cũng từ đótín
hiệu tiếng nói trở thành một đối tượng và cũng là một nguồn tải lớn nhất củamạng viễn thông, cùng với sự phát triển của kỹ thuật số, các công nghệ bándẫn thì các phương pháp mã hoá tín hiệu tiếng nói cũng phát triển mạnh, lýthuyết mà các nhà khoa khọc đưa ra từ nhiều thập kỷ trước đã được thựchiện
Đặc biệt khoảng 10 năm trở lại đây với sự phát triển mạnh của mạng viễnthông toàn cầu, mạng Internet các dịch vụ viễn thông tích hợp thoại, hình , sốliệu thì băng tần truyền dẫn ngày càng trở nên hạn chế, ngoài việc phát triểncác công nghệ truyền dẫn có hiệu năng cao như SDH,VLSI , thì xuhướng làm giảm băng tần truyền dẫn từ chính nguồn tín hiệu được xem làbiện pháp khả thi và kinh tế, các hãng liên tiếp đưa ra các cải tiến, và đề xuấtcác phương thức mã hoá mới như MPX, Q-CELP, LD-CELP,V-CELP, SBC
ở Việt nam lĩnh vực này còn khá mới mẻ, vì vậy nghiên cứu các đặc tính củatín hiệu tiếng nói và các phương pháp xử lý mã hoá là một công việc hết sứccần thiết
Trong đề tài tôt nghiệp, em được giao nhiệm vụ nghiên cứu “đặc tínhcủa tín hiệu tiếng nói và các phương pháp mã hoá” Em xin được trình bàyluận án tốt nghiệp của mình với các nội dung sau:
• Chương 1 :Nghiên cứu quá trình phát âm và các đặc tính của âm thanh
• Chương 2 :Phương pháp mã hoá vùng thời gian
• Chương 3 :Phương pháp mã hoá vùng tần số
• Chương 4 :Các kỹ thuật mã hoá đang được sử dụng phổ biến cho các
Trang 7Trường ĐHGTVT - Hà Nội 4 http://w w w.ebook.edu.vn
dịch vụ tiên tiến
Trang 8-đề tài của mình.
Do trình độ, và thời gian hạn chế cho nên đề tài không thể tránh khỏinhững thiếu sót, em rất mong nhận được sự đóng góp của các thầy cô
Trang 9Chương I Tín hiệu tiếng nói
1 Quá trình phát âm của con người:
Quá trình phát âm của con người được mô tả như sau:
áp lực tạo ra từ phổi làm cho các thanh quản phát ra các rung động
Lỗ giãn giữa các thanh quản gọi là thanh môn, thanh môn giống như một nút
cổ chai, không khí đi qua đây sẽ có áp suất thay đổi đột ngột tạo thành xunglực, ảnh hưởng của thanh môn chính là sự phóng các chuỗi không khí bị nénđến các hốc cộng hưởng âm với tần số thay đổi theo sự giãn nở này(do thầnkinh điều khiển)
Luồng khí xuyên qua các hốc, phản xạ lên các vật chắn (là các bộphận giới hạn cơ quan phát âm như các cơ), đi qua các hốc cộng hưởng cuốicùng phát ra ở môi và lỗ mũi dưới dạng sóng áp lực, còn gọi là sóng áp lực
âm thanh tiếng nói
Thanh quản có thể bị làm cứng, hoặc nới lỏng (do thần kinh điều khiểncác cơ) để thay đổi tốc độ dãn
Cơ quan chắn giữa khoang mũi và khoang miệng hoạt động như mộtcổng giữa hốc âm mũi và hốc âm miệng, nó có thể đóng để cô lập hay mở đểkết hợp với hốc âm miệng một cách hài hoà trong các tình huống khác nhau(ví dụ như khi hát, khi nói chuyện, khi nói thầm) và trong các ngôn ngữ khácnhau (ví dụ tiếng Pháp thường phát ra nhiều âm mũi hơn tiếng Việt)
Lưỡi, quai hàm, răng, môi được thay đổi vị trí không gian để thay đổihình dạng (tức là thay đổi tần số cộng hưởng) của hốc âm miệng, sóng áp lực
âm thanh phát ra từ miệng phụ thuộc vào sự liên kết giữa các âm phát ra và sựsuy hao trên các cơ quan phản xạ
Sóng áp lực âm thanh tồn tại dưới dạng sự di chuyển liên tục của cácluồng khí, khi đến cơ quan thính giác thì được phản ánh qua các thông số: độ
rõ, âm sắc, độ cao, độ lớn của âm
Cơ quan phát âm được kích thích bởi luồng khí từ phổi, nguồn kíchthích này có thể tạo ra âm kêu hoặc không kêu âm kêu ứng với quá trình sau:Thanh đới dao động tại tần số gọi là “tần số căn bản”, hay còn gọi là độ cao
Trang 10của âm, có thể trực tiếp kiểm tra bằng cách đặt ngón tay vào cổ họng khi nói,nếu có sự rung động sang tay thì đó là âm kêu.
Còn âm không kêu ứng với quá trình sau: Khi thanh đới không daođộng, tức là bị “làm cứng” bởi các cơ, luồng khí hoặc cũng được phát ra cơquan phát âm hoặc bị thanh môn chặn lại hiệu ứng của chúng là có sự hỗnloạn của các luồng khí đi qua các cơ quan
Bởi vậy trong thời gian xem xét sóng âm thanh phát ra là sự kết hợpcủa âm thanh và âm vô thanh
h1 Cấu tạo cơ quan phát âm
Liên quan đến quá trình phát âm, ta có khái niệm formant, một đặcđiểm hết sức quan trọng trong lĩnh vực xử lý tín hiệu tiếng nói, nó được hiểunhư sau:
Formant là tần số cổng hưởng cơ bản của cơ quan phát âm, nó phụthuộc vào cỡ, hình dạng của toàn bộ cơ quan phát âm Năng lượng của nhữngtần số này được tăng cường do có sự phản xạ đồng thời của các thành phầnkhác, còn năng lượng ở những thành phần tần số khác có khuynh hướng suy
Trang 11giảm đặc biệt là tại các tần số triệt tiêu, năng lượng bị làm nhụt Quan sát trênmáy phân tích phổ tần số cổng hưởng này(formant) xuất hiện như một cáibướu như hình vẽ
Hình 1-1 : Dạng sóng âm của tiếng nói
Ngôn ngữ khác nhau trên thế giới chỉ là ở sự khác nhau giữa các tần sốformant cho nên để xây dựng một hệ thống mã hoá tham số nguồn hiệu quảthì cần phải gắn cả yếu tố dân tộc, ngôn ngữ vào đó
Phân tích bản chất của quá trình phát âm không những giúp cho việc
mã hoá tín hiệu tiếng nói mà còn đóng vai trò quan trọng trong quá trình tổnghợp tiếng nói, và nhận dạng tiếng nói Cả ba lĩnh vực công nghệ này đangđược Việt nam rất quan tâm
Thính giác :
Sản phẩm của các quá trình xử lý tín hiệu tiếng nói phải được phảnánh bởi chính con người thông qua cơ quan thính giác Các thông tin củathính giác liên quan đến vấn đề mã hoá tín hiệu là:
Trang 12• Thính giác có tính quán tính : Đáp ứng của thính giác với tác động của
âm thanh không phải là ngay tức thì, mà là có tính trễ, các thí nghiệm
đã cho kết quả với môi trường truyền âm bình thường sau khi bắt đầukhoảng 200ms thính giác mới xác định âm lượng của nó khi âm ngừngcảm nhận còn âm kéo dài chừng 150-200 ms thính giác không phânbiệt được hai âm giống nhau đi liền nhau khoảng nhỏ hơn 50 ms, tức là
có hiện tượng che lấp của âm, phải qua tác động vài chu kỳ thì taingười mới “quen” với cao độ của âm (tần số cao hay thấp)
• Hiệu ứng không gian (stereo) của tai người là hiệu ứng cảm ứng hai taivới hai nguồn âm tương quan, điều này có ảnh hưởng đến độ rõ của
âm khi tiến hành kiểm tra hệ thống
• Tính phi tuyến của thính giác, thính giác có mức độ cảm thụ âm nhiễukhông phải là tỉ lệ thuận với độ dộng dải tần, ảnh hưởng của nó là méo
âm thanh do thêm thành phần sóng hài, không gây ra sai lệch chongười nghe bằng do thêm thành tần số không bội, khi mã hoá phải chú
2 Đặc tính thống kê của tín hiệu tiếng nói:
Dạng sóng tín hiệu tiếng nói có một số tính chất hữu ích có thể khai thác
được khi tiến hành mã hoá tín hiệu Tính chất thường dùng nhất là sự phân
bố xác suất không đều của biên độ tiếng nói, có sự tự tương quan giữa các mẫu liên tiếp, bản chất không phẳng của phổ tín hiệu tiếng nói sự tồn tại của các thành phần âm kêu và âm không kêu và tính chất tựa tuần hoàn của các tín hiệu tiếng nói Tính chất quan trọng nhất mà tất cả các bộ
mã hoá khai thác đó là 0 Một độ rộng dải tần giới hạn có nghĩa là nó có thể
được rời rạc hoá về mặt thời gian với một tốc độ giới hạn và được khôiphục lại hoàn toàn đầy đủ từ các mẫu của nó với điều kiện thoả mãn điều kiệnlấy mẫu Nyquiet Còn các tính chất khác nói lên khả năng cho phép lượng tử
Trang 13hoá.
Trang 142.1, Hàm phân bố mật độ xác suất(pdf).
Hàm mật độ không đều của biên độ tiếng nói, nói chung được đặc trưngbởi xác suất cao của các biên độ gần giá trị “không”, một xác suất đáng kể ởcác biện độ rất lớn và một hàm giảm không tăng đều của các biên độ gần cáccực trị này Tuy nhiên sự phân bố chính xác lại phụ thuộc vào độ rộng dải tầnlối vào và điều kiện thu âm thanh, hàm đăc trưng pdf:
1
p(x) = 2ú ì exp(ư 2 | x | / ú ì
Hàm này gần giống phân bố Gauss chuẩn, các bộ lượng tử hoá khôngđều (PCM) và các bộ lượng tử hoá vectơ (CELP) cố gắng hoà hợp sự phân
bố các pdf tín hiệu tiếng nói lối vào bằng cách dùng nhiều mức lượng tử hơn
ở vùng có xác suất cao và ít ở mức lượng tử hơn ở vùng có xác suất nhỏ
, Hàm tự tương quan(ACF).
Tính chất có ích khác của tín hiệu tiếng nói khi phân tích là tính có một
sự tương quan đáng kể (tức là sự giống nhau) giữa các mẫu tiếng nói kế cậnnhau của một đoạn tiếng nói
Tức là trong mỗi mẫu của tín hiệu tiếng nói có một bộ phận lớn có thể dựđoán từ các giá trị của các mẫu trước với một sai số ngẫu nhiên nhỏ nào đócác phương pháp AD, ADPCM, APCM, CELP, LPC dựa trên tính chất này.Hàm tự tương quan:
Trang 15, Hàm mật độ phổ công suất PSD
Đặc tính không phẳng của mật độ phổ công suất của tiếng nói làm cho
nó có thể thu được một hiệu suất nén đáng kể bằng việc mã hoá tiếng nói vùngtần số Bản chất không phẳng của PSD là thể hiện trong vùng tần số của tínhchất tự tương quan là khác không PSD tính trung bình trong một thời gian dàicủa tiếng nói chứng tỏ các thành phần tần số cao đóng góp rất ít vào nănglượng tiếng nói tổng cộng Điều này chứng tỏ rằng sự mã hoá tiếng nói táchbiệt trong các dải tấn số khác nhau có thể đưa đến bộ khuyếch đại mã hoáđáng kể, tuy nhiên không thể bỏ qua được các thành phần này vì chúng có ýnghĩa là các phần tải thông tin quan trọng
Phổ công suất của tín hiệu tương tự là kết quả của phép biến đổi Furiercủa ∅n(ụ):
Trang 16Mật độ phổ công suất LAPLACE, GAMMA
và tín hiệu thực của tín hiệu tiếng nói thực tế
∞
Trang 173 Các mô hình biểu diễn
a Cơ quan phát âm (vocal tract)
Sự cộng hưởng của tiếng nói (formant) là tương ứng với điểm cực
Tần số cộng hưởng điển hình của cơ quan phát âm:
s s*k = ư ú ± j2éFtương ứng rời rạc về thời gian là:
|Z|=e-úkT và ố =2∏F T
ưk
Trang 18Bởi vậy nếu V(z) tìm được thì tần số cộng hưởng và băng tần cũngđược tính, như chỉ ra trên hình vẽ trên tần số thực phức của cơ quan phát âmtất cả thuộc nửa bên trái mặt phẳng s vì vậy nó là hệ thống ổn định củaphép biến
đổi s, do đó úk>0 và |Zk|<1 nghĩa là tất cả các điểm cực tương ứng của môhình rời rạc thời gian phải nằm bên trong vòng tròn đơn vị để đảm bảo tính ổnđịnh của hệ thống
Các xung âm kêu
chu kỳ cao độ
Máyphátchuỗixung
Chế độxung
Trang 19Điều chỉnh biên độ Gv, điều khiển một mạch kích thích âm kêu, cácnghiên cứu chỉ ra rằng dạng sóng "thanh môn" có thể được thay bằng dạngsóng của xung tổng hợp theo dạng:
Tổng hợp hai cách trên ta có mô hình hoàn thiện:
Như trên đã phân tích các bản chất của tín hiệu tiếng nói với mô hìnhcho cơ quan phát âm, nhìn chung xử lý tín hiệu tiếng nói trong viễn thông cóthể dùng điều biến tương tự, tuy nhiên kỹ thuật này đã trở nên lỗi thời, hiệnnay chúng ta đều dùng kỹ thuật số cho tất cả các loại tín hiệu do vậy tín hiệutiếng nói cũng phải xem xét trong mô hình số Như vậy bản chất của mã hoátín hiệu thoại chỉ là xử lý số thông thường Các phương pháp tiếp cậnđối tượng khác nhau cho ta các phương pháp mã hoá khác nhau, căn cứ vàocách tiếp cận đối tượng ta chia các phương pháp mã hoá như hình vẽ:
Trang 20Sự phân tầng bộ mã hoá tiếng nói
Bộ m∙ hoá tiếng nói
Lĩnh vực thời gian Lĩnh vực tần số LPC nguồn tiếng nóiBộ mã hoá
Không
vi phân
Vi
Trang 21Bộ mã hoá tiếng nói được phân thành hai loại lớn :bộ mã hoá dạng sóng
và bộ mã hoá tham số nguồn Bộ mã hoá dạng sóng nhằm tạo ra dạng sóngthời gian của tín hiệu tiếng nói càng chính xác càng tốt, chúng được thiết kếđộc lập với nguồn tín hiệu (có nghĩa là có thể áp dụng cho cả loại tín hiệukhác) nên chất lượng không phụ thuộc nhiều vào nguồn tín hiệu chúng có ưuđiểm là chất lượng ổn định với phạm vi rộng của các đặc trưng tiếng nói,và
các môi trường ồn khác nhau Còn các bộ mã hoá nguồn tiếng nói thì lại có ưuthế trong việc tiết kiệm băng tần nhưng lại rất phức tạp và có độ ổn địnhkhông cao tuy nhiên chúng ngày càng được khắc phục, để phục vụ cho cáccông nghệ viễn thông hiện tại và trong tương lai Nội dung cụ thể sẽđược trình bày trong các chương tiếp theo
Trang 22Chương II M∙ hoá vùng thời gian.
1 Công nghệ PCM:
Cấu hình cơ bản của kiểu truyền tin PCM:
Mã hoá là quá trình biến đổi các giá trị rời rạc thành các mã tương ứng.Nhìn chung, việc lấy mẫu liên quan tới quá trình biến đổi các tín hiệu liên tụcthành các tín hiệu rời rạc của trường thời gian gọi là PAM (điều chế biên độxung) Việc mã hoá là quá trình lượng tử hoá các giá trị mẫu này thành các giátrị rời rạc của trường biên độ và sau đó biến đổi chúng thành mã nhị phân haycác mã ghép kênh Khi truyền thông tin mã, nhiều xung được yêu cầu cho mỗigiá trị lấy mẫu và vì thế độ rộng dải tần số cần thiết cho truyền dẫn phải được
mở rộng Đồng thời xuyên âm, tạp âm nhiệt, biến dạng mẫu, mất xung mẫu,biến dạng nén, tạp âm mã hoá, tạp âm san bằng được sinh ra trong lúc tiếnhành lấy mẫu và mã hoá Việc giải mã là quá trình khôi phục các tín hiệu đã
mã hoá thành các tín hiệu PAM được lượng tử hoá Quá trình này tiến hànhtheo thứ tự đảo đúng như quá trình mã hoá Mặt khác quá trình lượng tửhoá, nén và mã hoá các tín hiệu PAM được gọi là quá trình mã hoá và quátrình chuyển đổi các tín hiệu PCM thành D/A, sau đó, lọc chúng sau khigiãn để
đưa về tiếng nói ban đầu gọi là quá trình giải mã Cấu hình cơ sở của hệ thốngtruyền dẫn PCM đối với việc thay đổi các tín hiệu tương tự thành các tín hiệuxung mã để truyền dẫn được thể hiện ở hình (pcm1) Trước tiên các tín hiệuđầu vào được lẫy mẫu một cách tuần tự, sau đó được lượng tử hoá thànhcác giá trị rời rạc trên trục biên độ Các giá trị lượng tử hoá đặc trưng bởicác mã nhị phân Các mã nhị phân này được mã hoá thành các dạng mã thíchhợp tuỳ theo đặc tính của đường truyền dẫn
Trang 23Đầu vào
Lấy mẫu
Mã hoá
Tái tạo
và trễ
Giảimã
Lọc
Đầu ra tương tự Đầu vào số Đầu ra số tương tự
Cấu hình cơ bản của phương pháp thông tin PCM
Thiết bị đầu cuối mã hoá chuyển đổi các tín hiệu thông tin như tiếng nóithành các tín hiệu số như PCM Khi các tín hiệu thông tin là các tín hiệutương tự, việc chuyển đổi A/D được tiến hành và việc chuyển đổi D/D đợctiến hành ở trường hợp của các tín hiệu số Đôi khi, quá trình nén và mã hoábăng tần rộng được tiến hành bằng cách triệt sự dư thừa trong quá trìnhtiến hành chuyển đổi A/D hoặc D/D)
Lấy mẫu:
Nguyên tắc cơ bản của điều xung mã là quá trình chuyển đổi các tín hiệuliên tục như tiếng nói thành tín hiệu số rời rạc và sau đó tái tạo chúng lại thànhthông tin ban đầu Để tiến hành việc này, các phần tử thông tin được rút ra từcác tín hiệu tương tự một cách tuần tự Quá trình này được gọi là công việclấy
mẫu
(a) Tín hiệu tiếng nói m(t)
(b) Xung lấy mẫu s(t)
(c) Chức danh lấy mẫu
(d) Tín hiệu PAM đã lấy mẫu
Trang 24Tín hiệu tiếng nói và các phương pháp m∙ hoá
Quá trình lấy mẫu.
Theo thuyết lấy mẫu của Shannon, các tín hiệu ban đầu có thể được khôiphục khi tiến hành công việc lấy mẫu trên các phần tử tín hiệu được truyền đi
ở chu kỳ hai lần nhan hơn tần số cao nhất Nói cách khác, khi độ rộng dải tầncủa tín hiệu được truyền đi gọi là BW, tỷ lệ lấy mẫu tới hạn là tỷ lệ Nyquitsttrở thành Rmax = 2 x BW Các tín hiệu xung lấy mẫu là tín hiệu dạng sóngchu k, là tổng các tín hiệu sóng hài có đường bao hàm số sin đối với các tần
số Vì thế, phổ tín hiệu tiếng nói tạo ra sau khi đã qua chức năng lấy mẫu thểhiện ở hình sau
Phổ trước và sau quá trình lẫy mẫu
Trang 25Có hai kiểu lấy mẫu tuỳ theo dạng của đỉnh độ rộng xung, lấy mẫu tựnhiên và lấy mẫu đỉnh bằng phẳng Lấy mẫu tự nhiên được tiến hành một cách
lý tưởng khi phổ tần số sau khi lấy mẫu trùng với phổ của các tín hiệu banđầu Tuy nhiên trong các hệ thống thực tế, điều này không thể có được Khitiến hành lấy mẫu đỉnh bằng phẳng, một sự nén gọi là hiệu ứng biên độ lấymẫu làm xuất hiện méo Ngoài ra, nếu các phần tử tín hiệu đầu vào vượt quá
độ rộng dải tần 4 KHz, xuất hiện sự nén quá nếp gấp Vì vậy, việc lọc băngrộng các tín hiệu đầu vào phải được tiến hành trước khi lấy mẫu
Lượng tử hoá:
PAM với biên độ tương tự chuyển đổi thành các tín hiệu số là các tínhiệu rời rạc sau khi đi qua quá trình lượng tử hoá Khi chỉ thị biên độ của tiếngnói liên tục với số lượng hạn chế, nó được đặc trưng với dạng sóng xấp xỉcủa bước Tạp âm lượng tử NQ = Q - S tồn tại giữa dạng sóng ban đầu (S) vàdạng sóng đã lượng tử (Q); nếu bước nhỏ tạp âm lượng tử được giảm đinhưng số l-
ượng bước đầu cần thiết cho lượng tử toàn bộ dải tín hiệu đầu vào trở nênrộng
hơn Vì thế số lượng các dãy số mã hoá tăng lên
Tạp âm lượng tử theo biên độ tín hiệu đầu vào
Tạp âm tạo ra khi biên độ của các tín hiệu đầu vào vượt quá dãy lượng
Trang 26tử gọi là tạp âm quá tải hay tạp âm bão hoà S/NQ được sử dụng như một đơn vị
Trang 27Tín hiệu tiếng nói và các phương pháp m∙ hoá
để đánh giá những ưu điểm và nhược điểm của phương pháp PCM Khi
số lượng các dãy số mã hoá trên mỗi mẫu tăng lên 1 bit, S/NQ được mởrộng thêm 6 dB
Sự nén và gi∙n:
Như phương pháp tiến hành mã hoá hoặc giải mã, mã đường, mãkhông phải mã đường và mã đánh giá có thể được lựa chọn theo các kiểu củanguồn thông tin Mã đường là một quá trình triệt số lượng tạp âm lượng tửsinh ra trên thông tin được gửi đi bất chấp mức đầu vào Nó được sử dụngtrong một hệ thống ở đó giá trị tuyệt đối của số lượng tạp âm là tới hạn hơnS/NQ Mã không phải là mã đường được sử dụng rộng dãi trong một hệthống ở đó S/N của hệ thống thu được quan trọng hơn số lượng tuyệt đối củatạp âm như tiếng nói Khi bước lượng tử là một hằng số, S/N thay đổi theomức tín hiệu Chất lượng gọi trở nên xấu hơn khi mức tín hiệu thấp Vì thếđối với các tín hiệu mức thấp, bước lượng tử được giảm và đối với các tínhiệu mức cao nó được tăng để ít hoặc nhiều cân bằng S/N với mức tín hiệuđầu vào Những vấn đề trên được tiến hành bằng cách nén biên độ Một cách
lý tưởng, đối với các tín hiệu mức thấp đường cong nén và giãn là truyến tính.Đối với các tín hiệu mức cao chúng đặc trưng bởi đường cong đại số Hiệnnay, ITU-T khuyến nghị luật
ỡ (ỡ =255) là phương pháp 15 đoạn(các hệ thống của Hoa Kỳ và Nhật) và luật(A= 87,6) (các hệ thống của châu âu, trong đó có Việt nam) là phương pháp
13 đoạn như là phương pháp nén đoạn mà các hàm đại số được biểu diễngần
đúng với một vài đường tuyến
tính
y=yma A(x / xmax )
1 + ln A với 0≤(x/xmax)≤1/A
Trang 28ymax, xmax: là các biên độ lớn nhất tại đầu vào
Với việc sử dụng công nghệ nén được mô tả ở trên, những đặc tính tạp
âm ở các tín hiệu mức thấp có thể được giảm đến mức hầu như giống vớimức của mã tuyến tính 13 bits Một bộ nén - giãn đôi khi được nói tới như làmột từ viết tắt kết hợp nén và bộ dãn
Trang 29Các đặc tính S/NQ của các phương pháp mã hoá.
Cả hai phương pháp mã hoá và phương pháp nén là đồng thời đượctiến hành qua bước nén số - số hoặc tự mã hoá mà không thêm những mạchriêng rẽ khác bởi sử dụng tính chất tuyến tính của phương pháp nén đoạntrong số
Một bảng giá trị với phương pháp mã hoá và cách nén mã ỡ =255 được chỉ ratrên bảng dưới đây
Trang 30Bảng ỡ =255 Mã hoá và Giải mã
Trang 31M∙ hoá và Giải m∙:
Mã hoá là một quá trình so các giá trị rời rạc nhận được bởi quá trìnhlượng tử hoá với các xung mã
Thông thường các mã nhị phân được sử dụng cho việc mã hoá là các
mã nhị phân tự nhiên, các mã Gray (các mã nhị phân phản xạ), và các mãnhị phân kép Phần lớn các kí hiệu mã so sánh các tín hiệu vào với điện ápchuyển
để đánh giá xem có các tín hiệu nào không Như vậy, một bộ phận chuyển đổiD/A hoặc bộ giải mã là cần thiết cho việc tạo ra điện áp chuẩn Trong liên lạccông cộng PCM, tiếng nói được biểu diễn với 8 bits Tuy nhiên trong
trường
hợp của luật ỡ , các từ PCM đợc lập nên như sau (8 bits)
Bit phân cực = ⎨ 0,1⎬
Bit phân đoạn = ⎨ 000, 001, , 111⎬
Bit phân bước = ⎨ 0000, 0001, , 1111⎬
Từ đoạn thứ nhất của tín hiệu "+" và tín hiệu "-" là các đường thẳng, có 15phân đoạn Cực "+" của dạng sóng tín hiệu tương ứng với bit phân cực 0 và
cực "-", với "1"
Trang 32Mã hoá từ PCM.
Trang 33Việc báo hiệu được thực hiện sau khi thay đổi "0" của từ PCM sang "1"
và "1" sang "0" và vì thế, một lượng lớn số 1 đã được thu thập chungquanh mức 0 và sự tách các tín hiệu thời gian trong khi thu nhận có thể dễ dàngthực hiện B8 là bít thứ 8 của từ PCM, đôi khi được dùng như là một bit báohiệu B7 (hoặc B8) chuyển đổi sang "1" khi mọi từ của PCM là "0" Như vậy,trong các tín hiệu PCM được gửi đi, các số "0" liên tục luôn luôn ít hơn
16 Mặt khác, khi sử dụng phương pháp Bắc Mỹ, bit B2 của mọi kênh đượcthay đổi thành "0" nhằm chuyển đi thông tin cảnh báo cho đối phương ở NhậtBản, bit "S" đó là một phần của khung các bit chỉ định được dùng thay thếcho mục
đích này Các từ PCM nhận được, được chuyển đổi thành các tín hiệu PAMbởi bộ giải mã ở phía thu, các xung tương ứng với mỗi kênh được chọn lọc
từ các dẫy xung ghép kênh để tạo ra các tín hiệu PAM Rồi, các tín hiệu tiếng
nói được phục hồi bằng một bộ lọc thông thấp
Quá trình giải mã Phổ của tín hiệu đã lấy mẫu.
Trang 34Quá trình giải mã và phổ.
2.Các phương pháp mã hoá khác:
Các quy luật đối với PCM vi phân thích ứng 32Kbps có nén giãn như
mã hoá dự đoán của các tín hiệu tiếng được chỉ rõ trong các khuyến nghịG712 của ITU-T Phương pháp ADPCM 32 Kbps được chấp nhận vào tháng
10 năm 1984 được dùng để chuyển đổi các tín hiệu PCM 64 Kbps theo luật Ahay luật
ỡ hiện nay sang các tín hiệu ADPCM Phương pháp 32 Kbps ADPCM có khảnăng chuyển một lượng tiếng nói lớn gấp hai lần thậm trí còn nhiều hơnphương pháp qui ước 64 Kbps PCM, được chấp nhận một cách rộng rãi bởi
bộ chuyển mã hoặc các thiết bị đầu cuối mã hoá với hiệu quả cao Hiện nay cácnước tiên tiến trên thế giới đang tiến hành nghiên cứu một cách ráo riết vềcông nghệ mã hoá tốc độ không những cho thoại mà cả truyền hình Cụ thể sẽbàn đến tiếp ở các phần tiếp theo
phương pháp m∙ hoá DPCM ( Điều xung m∙ vi sai):
Đây là phương pháp dựa trên tính chất tương quan của tín hiệu tiếngnói, chỉ truyền đi độ trênh lệch giữa các mẫu cạnh nhau của tín hiệu tiếng nói:
Trang 35DPCM 1 Sơ đồ mã hóa và giải mã DPCM.
Tín hiệu tiếng nói tương tự vào qua bộ lọc thông thấp, hạn chế băng tầncủa tín hiệu vào(thường là một nửa tần số lấy mẫu), máy phát lượng tử và
mã hoá lượng tử trênh lệch giữa xung lấy mẫu tương tự xn và tín hiệu dựđoán xn lấy từ đầu ra bộ dự đoán x`n Giá trị dự đoán của mẫu tiếp theo cóđược nhờ
ngoại suy từ p giá trị mẫu cho trước:
p
x`(n)= ∑ a i x` nưi
i =1
ai là hệ số của các bộ dự đoán, độ trênh lệch giữa xung lấy mẫu đầu vào
và tín hiệu ra lấy mẫu là:
en=xn- x`(n)
Trang 36Trường ĐHGTVT - Hà Nội 29 http://w w w.ebook.edu.vn
Đây chính là giá trị dùng để lượng tử hoá và truyền đi, ở phía thu sẽ tiếnhành hồi phục lại tín hiệu sai số này và tích phân lại công với tín hiệu đã hồi
Trang 37phục trước đó, tuy nhiên để giảm lỗi cộng lại của nhiều lần ta dùng phia thumột bộ dự đoán giống với phía phát Việc sử dụng vòng phản hồi giúp cho bộlượng tử hạn chế độ trênh lệch giữa sai số en và si số được lượng tử e`n (en`-
en)
Nếu giá trị này càng nhỏ thì chất lượng tiếng nói càng tốt, theo các tính toánthì phương pháp này có độ rộng băng tần đi một nửa
Phương pháp DM ( điều chế delta):
Điều chế DM là một loại điều chế DPCM trong đó mỗi từ mã chỉ cómột bít nhị phân, có ưu điểm mạch điện dễ dàng chế tạo( hình dưới )
Tín hiệu thoại sau khi được lọc băng tần ((0,3-3,4)Khz) được rời rạc hoá tạo thành tín hiệu PAM xn, so sánh tín hiệu này với tín hiệu dự đoán x`n, độ
lệch giữa hai giá trị này (en) được lượng tử thành một trong hai giá trị-Ä
,huăc +Ä Phía ra bộ lượng tử hoạ sẽ truyền đi một bit nhị phân cho mỗi xunglấy mẫu Tại phía thu các giá trị ±Ä được cộng với các giá trị dự đoán tức thờiphía ra bộ giải mã khôi phục lại tiếng nói ban đầu
Tốc độ bit của điều chế delta bằng tốc độ của tần số lấy mẫu, tức là 8kbps
Phương pháp này như đã nói là khá đơn giản, đạt được tốc độ mã hoárất thấp, nó là phương pháp duy nhất của phương pháp mã hoá dạng sóng
có thể so sánh về tốc độ với phương pháp tham số nguồn về tốc độ, songchất lượng tín hiệu mã hoá không cao, không đảm bảo được phạm vi độngcủa hệ thống PCM
Trang 38thoại vào lọc Bộ lấy mẫu +
xn en
lượng tử hoá e`n= ±Ä
Trễ
+x`(n)
e`n= ±Ä
thoại ra
Trễ
hình AD 1 Sơ đồ mã hóa và giải mã AD
Dạng sóng tín hiệu nguồn, hồi phục, tín hiệu truyền của AD
Trang 392.3 Điều chế Deta tự thích nghi (ADM):
Phương pháp này còn gọi là phương pháp điều chế delta có độ dốc thayđổi liên tục Phương pháp này khắc phục cho điều chế delta về khả năng dảiđộng, phương pháp này dựa trên phương pháp thay đổi động hệ số khuyếchđại của bộ tích phân phù hợp với mức công suất trung bình của tín hiệu vào
Dạng sóng tín hiệu nguồn, hồi phục, tín hiệu truyền của ADM
hình adm 1 Sơ đồ mã hóa và giải mã AD
+
Trang 40Cỡ của bước lượng tử thay đổi nhờ thay đổi hệ số khuyếch đại của bộtích phân nhờ mạch RC và mạch bình phương, khi tín hiệu vào là hằng sốhoặc thay đổi chậm theo thời gian thì bộ điều chế này sẽ tìm kiếm và đưa
ra một dãy xung có cực tính xen kẽ, mạch RC lấy trung bình các dãy này, khi
nó đưa ra gía trị bằng zero Có nghĩa là tín hiệu điều khiển làm hệ số khuyếchđại của
bộ khuyếch đại thay đổi rất ít Đầu ra bộ khuyếch đại có bước Ä kích thướcnhỏ, khi tín hiệu vào có sườn dốc thì hàm bậc thang được tạo ra để kịp độdốc của tín hiệu vào Lúc đó sẽ tạo ra một loạt xung âm mạch RC lấy trungbình loạt xung này và đưa ra điện áp điều khiển lớn, tức là cỡ của bướctăng lên, nhờ mạch bình phương nên điện điều khiển bộ khuyếch đại luônluôn dương, mà không phụ thuộc cực tính của xung thế nào phương pháp này
có khả năng giảm méo do quá tải sườn và tạp âm hạt
3 Phương pháp mã hoá ADPCM (Điều chế xung mã vi sai thích ứng)
(ADAPTIVE DIFFERENTIAL PULSE CODE MODULATION):
Đây là phương pháp mã hoá khá quan trọng, tập hợp được những ưuđiểm của các phương pháp trên và đã được ITU-T tiêu chuẩn hoá trongkhuyến nghị G721, và đã có nhiều ứng dụng trong thực tế như hệ thống diđộng CT2 của Hàn Quốc, DECT của Mỹ Vì vậy ta sẽ nghiên cứu sâuphương pháp Các tốc
độ được tiêu chuẩn là 40,32, 24, 26 kbps
Phương pháp này dựa trên tính chất thay đổi chậm của phương sai
và hàm tự tương quan, với phương pháp PCM ta dùng bộ lượng tử đều có công
suất tạp âm là Ä2/12, phương pháp ADPCM và các phương pháp dựđoán
tuyến tính nói chung là thay đổi Ä hay còn gọi là phương pháp dùng bộ lượng
tử hoá tự thích nghi Các thuật toán được phát triển cho hệ thống điều xung mã
vi sai khi khi mã hoá tín hiệu tiếng nói bằng cách sử dụng bộ lượng tử hoá và
bộ dự đoán thích nghi, co thông số thay đổi theo chu kỳ để phản ánh tínhthông kê của tín hiệu tiếng nói
Thuật toán cụ thể được xem xét cụ thể được trình bày trong các phầndưới đây