CÁC CHUẨN NÉN AUDIO PCM- LPC-GSM
Trang 1ĐỀ TÀI : CÁC CHUẨN NÉN AUDIO
PCM- LPC-GSMGIẢNG VIÊN HD: TRẦN BÍCH THẢO NHÓM : 17 – TIN 3A1
Trang 2NỘI DUNG
1.Tổng quan nén Audio2.Phương pháp nén PCM3.Phương pháp nén LPC4.Phương pháp nén GSM5.Kết luận
Trang 31 Đặc điểm của âm thanh số:
a, Số hóa tiếng nói thoại:
+ Giới hạn giải phổ: ≈4 KHz
+ Tần số lấy mẫu fs = 8 KHz, Te =125µs
+ Lượng tử hóa giá trị: mã hóa bằng 8 bits
+ Tốc độ cần thiết: 8000 x 8 = 64000 bits/s (64Kb/s)
+ Các chuản nén GSM: 15.2 Kbit/s, ADPCM: 32Kbit/s
b, Audio Hi-Fi (CD):
+ Giới hạn giải phổ: ≈4 KHz
Trang 5Các phương pháp cơ bản mã hóa tiếng nói
1, Pulse Code Modulation - PCM = G.711: Là phương pháp mã hóa cơ bản, mã hóa trực tiếp tín hiệu lấy mẫu tiếng nói, âm thanh với các luật lượng tử hóa µ-law và a-law
+ a-law: lấy một mẫu âm thanh 13 bit có dấu (sign)
và biến đổi thành một giá trị 8 bit
Trang 6Mã đầu vào tuyến
Trang 7Trong đó s là bit dấu (sign bit).
Dấu … thể hiện các bit có mức ưu tiên thấp không được mã hóa
Ví dụ:
1000'0000'1010'1111 được mã hóa thành 1000'1010 0000'0001'1010'1111 được mã hóa thành 0001'1010
+ µ-law: lấy một mẫu âm thanh 14 bit có dấu (sign)
và biến đổi thành một giá trị 8 bit
Trang 8Mã đầu vào tuyến
Trang 93, Mã hóa dự đoán tuyến tính- Linear Prediction Coding- LPC:
LPC là một công cụ được sử dụng hầu hết trong xử lý tín hiệu âm thanh và xử lý tiếng nói để biểu diễn đường bao phổ của tín hiệu số của tiếng nói trong dạng nén sử dụng thông tin của một mô hình dự đoán tuyến tính
LPC là một trong các kỹ thuật phân tích tiếng nói mạnh mẽ và là một công cụ hiệu quả cho việc mã hóa tiếng nói chất lượng cao với tốc độ bit thấp
Trang 10Mô hình LPC dựa trên việc xấp xỉ toán học về giọng nói của con người Tại thời điểm t mẫu tiếng nói s(t)
được biểu diễn như là một tổng của p mẫu trước đó
Trong LPC bộ lọc dự báo tuyến tính cho phép giá trị của mẫu tiếp theo sẽ được xác định bằng sự kết hợp của các mẫu trước đó
Trong điều kiện bình thường các mẫu được lấy với tần
số 8000 mẫu, mỗi một mẫu được biểu diễn bằng 8 bit
tốc độ sẽ là 64000bit (64 Kbit) LPC sẽ giảm tốc độ này xuống còn 24000 bit/s sẽ dãn đến hiện tượng mất mát thông tin, tuy nhiên chúng ta vẫn có thể nghe và hiểu được
Trang 114.Mã hóa GSM
Codec này sử dụng chuẩn mã hóa RPE-LPC (Regular Pulse Excited – Linear Predictive Coder ) Đây là loại codec mã hóa tiếng nói đầu tiên được sử dụng trong GSM Chuẩn mã hóa tiếng nói này dựa trên LPC kích xung đều với dự đoán dài.Nguyên tắc cơ bản dựa trên 2 codec : RELP (Residual Excited Linear) và MPE-LPC(Multi Pulse Excited LPC)
Trang 12Chuẩn nén GSM 06.10 là chuẩn mã hóa tiếng nói có mất mát do dựa trên sơ đồ mã hóa Kích thích dự đoán dài xung đều (RPE-LTP).
Trang 13*Bộ mã hóa chuẩn nén GSM 06.10
Trang 14Các khung tín hiệu tiếng nói đầu vào bao gồm 160 mẫu tín hiệu (theo mẫu PCM 13 bit) đầu tiên sẽ được tiền xử lý tạo đối tượng tín hiệu xử lý cho bộ lọc làm rõ nét trước 160 mẫu tín hiệu đạt được sẽ được phân tích để xác định các tham số cho bộ lọc phân tích ngắn hạn (LPC analysis).
Trang 15Các thông số này được sử dụng để lọc chính 160 mẫu tín hiệu đó Kết quả ta sẽ có được 160 mẫu tín hiệu
dư ngắn hạn Các thông số của của bộ lọc,hệ số phản xả tới hạn sẽ được chuyển đến LAR (log area ratios) trước khi được truyền đi.Khung tín hiệu sẽ được phân tách thành 4 khung con với 40 mẫu trong mỗi khung.Mỗi khung con sẽ được xử lý theo từng block bởi các thành phần chức năng nối tiếp sau
Trang 16- Trước khi xử lý từng khối nhỏ của 40 mẫu tín hiệu
ngắn hạn, các thông số của bộ lọc phân tích dài hạn : trễ LTP và đạt LTP sẽ được ước lượng và cập nhật trong bộ phân tích LTP dựa trên cơ sở của khối hiện tại và dãy 120 mẫu tín hiệu ngắn hạn trước đó được lưu trữ
Trang 17- Một block 40 tín hiệu dài hạn sẽ được tạo ra bằng việc trừ 40 mẫu tín hiệu ngắn hạn cho chính 40 ước lượng của chúng Các blocks đạt được sẽ được đưa vào bộ phân tích kích xung đều để thực hiện quá trình nén cơ bản của thuật toán.
Trang 18- Kết quả sau quá trình phân tích RPE, block 40 mẫu tín hiệu dài hạn được biểu diễn bởi 4 chuỗi con mỗi chuỗi gồm 13 xung.Sự chọn lọc sau đó được xác định bởi vị trí RPE lưới 13 xung RPE sẽ được mã hóa
sử dụng APCM với ước lượng biên độ block con – thông số cũng sẽ được chuyển đến bộ giải mã Thông số RPE cũng được chuyển tới bộ giải mã RPE cục bộ và module tái tạo để tạo ra 40 mẫu tín hiệu dài hạn đã được lượng tử hóa
Trang 19- Bằng việc cộng 40 mẫu tín hiệu dài hạn đã lượng tử hóa vào block các ước lượng tín hiệu ngắn hạn trước
đó, ta sẽ có các tín hiệu ngắn hạn được xây dựng lại.Các tín hiệu này sau đó được đưa vào bộ lọc phân tích dài hạn để tạo 40 ước lượng tín hiệu ngắn hạn sẽ được sử dụng cho block con tiếp theo và tiếp tục vòng lặp
Trang 20*Bộ giải mãi của chuẩn nén GSM 06.10
Trang 212 Chuẩn nén GSM 06.20:
Chuẩn GSM cho phép tách một kênh thoại đơn thành hai kênh thoại con có thể duy trì các cuộc gọi riêng biệt.Với cách chia này các tổng đài mạng có thể nhân đôi số lượng các cuộc gọi có thể được thực hiện trong mạng với một chi phí đầu tư nhỏ
Trang 22a)Công nghệ sử dụng trong chuẩn nén GSM 06.20
Chuẩn codec GSM 06.20 sử dụng code thuật toán VSELP.Thuật toán VSELP sử dụng công nghệ mã hóa phân tích-bằng-tổng hợp,nó thuộc lớp công nghệ mã hóa tiếng nói CELP (Mã hóa dự đoán tuyến tính kích thích)
Trang 24- phiên bản sửa đổi với B= 6.9 kbps trong các hệ thống di động của Nhật (JDC) và với B= 7.95 trong hệ thống thông tin di động của Mĩ (digital AMPS)
Thuật toán: -VSELP (Vector Sum Excited Linear Prediction) -độ rộng khung T = 20 ms , độ rộng sub-frame = 1/4T= 5 ms
- bộ lọc LPC theo thứ tự với n=10 , lượng tử hóa của các tham số phản xạ với ba vectow lượng tử 3 chiều, giảm độ phức tạp bằng việc sử dụng tiền-
- dự đoán dài hạn với sự kết hợp tìm kiếm vòng đóng/vòng mở
- lượng tử hóa vectơ của các yếu tố thu được
- bộ lọc thích nghi đánh giá lỗi
- độ trễ tín hiệu thuật toán : 20ms
- độ phức tạp khoảng 18.5 MOPS (Mega Operations Per Second)
Trang 25- dự đoán dài hạn với sự kết hợp tìm kiếm vòng
- lượng tử hóa vectơ của các yếu tố thu được
- bộ lọc thích nghi đánh giá lỗi
- độ trễ tín hiệu thuật toán : 20ms
- độ phức tạp khoảng 18.5 MOPS (Mega Operations Per Second)
Trang 263 Chuẩn nén GSM 06.60
Với sự phát triển của công nghệ DSP giúp hiện thực hóa chuẩn nén GSM 06.20, nó cũng cho phép việc phát triển một thuật toán mã hóa codec cải tiến với bit rate 13kbps được gọi là chuẩn nén GSM 06.60
Trang 27a) Bộ mã hóa và giải GSM 06.60
Trang 28Bộ giải mã codec
Trang 29b) Bảng thông số chuẩn nén GSM 06.60
Lấy mẫu Chu kì
Bit rate B = 13 kbit/s (bao gồm 0.78 kbit/s cho các bit tương đương)
Chất lượng - chất lượng cao hơn đáng kể so với chuẩn nén 06.10 , có thể so sánh với
- độ rộng khung = 20 ms , 4 khung con
- định rõ 10 hệ số LP 2 lần cho mỗi khung , lượng tử hóa dùng ma trận vecto vi phân sử dụng 20 hệ số LSF
- codebook thích nghi sử dụng kết hợp tìm kiếm open-loop/closed-loop và
áp dụng xác định khoảng phân đoạn bằng phép nội suy với hệ số 6
- lượng tử hóa dự đoán trước các tham số gia lượng
- bộ lọc sai khác có trọng số thích nghi
- độ trễ tín hiệu đại số 20 ms
- độ phức tạp vào khoảng 15.2 wMOPS (triệu phép tính trên mỗi giây)
Trang 304.Chuẩn nén GSM 06.90
Chuẩn nén GSM 06.90 là một bằng sáng chế của chương trình nén dữ liệu âm thanh tối ưu cho mã hóa tiếng nói.GSM 06.90 đã được thông qua là các codec nói tiêu chuẩn của 3GPP vào tháng Mười năm
1998 và hiện đang được dùng rộng rãi trong các mạng GSM và UMTS
Trang 31Bộ mã hóa và giải mã GSM 06.90
Chuẩn nén GSM 06.90 sử dụng tám codec mã nguồn với bit-rate là 12,2, 10,2, 7,95, 7,40, 6,70, 5,90, 5,15 và 4,75 kbit / s codec này được dựa trên các mã tuyến tính kích thích mô hình dự báo mã hóa (CELP) Một trật tự tuyến tính 10 dự đoán (LP), hoặc ngắn hạn, tổng hợp, bộ lọc được sử dụng Việc tổng hợp cao độ lọc được thực hiện bằng cách sử dụng các phương pháp tiếp cận codebook cái calledadaptive.
Trang 325.Kết luận
- Với sự phát triển mạnh của công nghê chế tạo phần cứng xử
lý tín hiệu số nói chung và xử lý tín hiệu tiếng nói nói riêng cũng đạt được rất nhiều thành tựu, giúp cho thực hiện được các thuật toán tinh vi phức tạp
- Ở Việt nam lĩnh vực xử lý tín hiệu tiếng nói gần đây mới được chú ý, tháng 7-2001 phần mềm nhận dạng tiếng việt được giới thiệu bởi viện công nghệ thông tin, và các phương thức phân tích tổng hợp tiếng nói bằng formant cũng đã được giới thiệu bởi tác giả Lê Hổng Minh (tạp chí bưu chính viễn thông tháng 3-2002).
Trang 33-Tuy chúng không phải là các sản phẩm mã hoá tốc đô thấp nhưng nó cũng là kết quả của sự phân tích nghiên cứu bản chất ngôn ngữ tiếng Việt Vì vậy công tác nghiên cứu tiếng việt cần được triển khai với các vấn đề như xây dựng đặc tính thống kê cho tiếng việt, xây dựng
sổ mã chuẩn cho tiếng việt và tiếp đó là sản xuất các sản phẩm mã hoá tốc đô thấp cho Việt nam Ta có thể
tự tin mà nghĩ rằng các sản phẩm mã hoá tốc đô thấp cho Việt nam sẽ được ra đời trong thời gian không xa.