Chất lượng tiếng nói với tốc độ bit của các bộ mã hoá

Một phần của tài liệu Xây dựng thuật toán truyền dữ liệu qua kênh thoại của mạng GSM và ứng dụng thuật toán sinh số giả ngẫu nhiên dựa trên các dãy phi tuyến lồng ghép để bảo mật dữ liệu (Trang 39 - 43)

1.3.3.1. Mã hố dạng sóng

Có thể chia mã hố dạng sóng ra làm hai loại chính :

Trong miền thời gian: Mã hoá điều biến xung mã (PCM), điều biến xung mã sai

lệch (DPCM) và điều biến xung mã sai lệch thích nghi (ADPCM).

Trong miền tần số: Mã hố băng phụ hay cịn gọi là băng con SBC (Subband

Coding) và mã hố biến đổi thích nghi ATC (Adaptive Transform Coding).

1.3.3.2. Mã hố nguồn

Mã hố nguồn sử dụng mơ hình q trình tạo ra nguồn tín hiệu và khai thác các thơng số của mơ hình này để mã hố tín hiệu. Những thơng số của mơ hình sẽ được truyền đến bộ giải mã. Đối với tiếng nói, các bộ mã hố nguồn được gọi là vocoder hoạt động dựa trên mơ hình cơ quan phát âm như đã nói ở trên và được kích thích với một nguồn nhiễu trắng đối với các đoạn âm vơ thanh hoặc được kích thích bằng một dãy xung có chu kì bằng chu kì pitch đối với đoạn âm hữu thanh. Do đó thơng tin được gởi đến bộ giải mã là các thông số kỹ thuật của bộ lọc, một thơng tin chỉ định đoạn tiếng nói là âm hữu thanh hay vơ thanh, sự thay đổi cần thiết của tín hiệu kích thích và chu kì pitch nếu đó là đoạn tiếng nói hữu thanh.

Có nhiều kỹ thuật để mã hoá nguồn như: mã hoá kênh, mã hố formant, mã hố tham số và mã hố đồng hình. Tuy nhiên, hiện nay chủ yếu tập trung vào nghiên cứu

và phát triển các bộ mã hoá tham số như mã hố dự đốn tuyến tính kích thích bằng hai trạng thái (mã hố LPC), mã hố dự đốn tuyến tính có sự kích thích kết hợp MELP và mã hố dự đốn tuyến tính kích thích bằng tín hiệu sau dự đốn RELP. Các bộ mã hoá tham số này thường được dùng trong điện thoại vệ tinh và trong an ninh, quốc phịng.

1.3.3.3. Mã hố lai

Mã hóa lai có nhiều phương pháp nhưng phương pháp phổ biến nhất là mã hố phân tích bằng cách tổng hợp AbS (Analysis-by-Synthesis). Bộ mã hoá này sử dụng mơ hình cơ quan phát âm của người giống như mã hố nguồn. Tuy nhiên, thay vì sử dụng các mơ hình tín hiệu kích thích đơn giản như mã hố nguồn thì ở đây tín hiệu kích thích được chọn sao cho cố gắng đạt được dạng sóng tiếng nói tái tạo càng giống với dạng sóng tiếng nói ban đầu càng tốt. Đây chính là đặc tính tạo nên sự khác biệt giữa các bộ mã hố kiểu AbS. Thuật tốn tìm ra dạng sóng kích thích này quyết định tới độ phức tạp của bộ mã hố.

1.3.4. Kỹ thuật nén tiếng nói trong thơng tin di động GSM

1.3.4.1. Các bộ mã Codec trong mạng GSM

GSM đã sử dụng nhiều loại codec thoại để nén âm thanh 3,1 kHz vào băng thông từ 7-13kbit/s. Ban đầu, hai loại bộ nén thoại, được đặt tên theo các loại kênh dữ liệu được phân bổ, đã được sử dụng, được gọi là Half Rate (6,5 kbit/s) và Full Rate (13 kbit/s). Chúng sử dụng một hệ thống dựa trên mã dự đốn tuyến tính (LPC). GSM đã được cải tiến hơn nữa vào năm 1997 với codec tốc độ đầy đủ (EFR), codec 12,2 kbit/s sử dụng kênh tốc độ đầy đủ. Cuối cùng, với sự phát triển của UMTS, EFR đã được tái cấu trúc thành một codec tốc độ biến đổi được gọi là AMR-Narrowband, có chất lượng cao và mạnh mẽ chống nhiễu khi được sử dụng trên các kênh tốc độ đầy đủ, hoặc kém mạnh mẽ hơn nhưng vẫn có chất lượng tương đối cao trên kênh vơ tuyến nửa tốc độ.

1.3.4.2. Cấu trúc một bộ mã hố tiếng nói dùng phương pháp mã hố lai AbS [16][8][10][30]

Hầu hết các tiêu chuẩn mã hố tiếng nói trong thơng tin di động GSM đều sử dụng phương pháp mã hoá lai AbS. Vì vậy trong phần này, xin được trình bày chi tiết về mã hoá lai AbS này.

Trong các bộ mã hố lai, các thơng số của hệ thống sẽ được xác định bằng kỹ thuật dự đốn tuyến tính như trong mã hoá tham số (ở trong phương pháp mã hố nguồn) và tín hiệu kích thích được xác định bằng một vịng kín (phân tích bằng

cách tổng hợp).

Hình 1.14 là sơ đồ khối của một bộ mã hoá lai điển hình [5][30]. Hệ thống này bao gồm một bộ lọc dự đoán thời gian ngắn (STP) A(z), một bộ lọc dự đoán thời

gian dài (LTP) AL(z), một bộ lọc nhấn W(z), một bộ giảm thiểu sai số cung cấp

thông tin cần thiết cho bộ tạo tín hiệu kích thích. Trong đó, quan trọng nhất là bộ tạo tín hiệu kích thích vì nó tạo ra hay chọn tín hiệu kích thích sao cho sai số bình phương trung bình sau khi qua W(z) là nhỏ nhất.

Bộ lọc nhấn (trọng số)

Bên phát

U[n]

S^[n]

Tiếng nói tổng hợp được

Bên thu

Hình 1.14. Sơ đồ khối của một bộ mã hoá lai [5][30]

Bộ lọc cơ quan phát âm

Tín hiệu vào S[n] x[n] S^[n] Gain U[n] + + ∑ ∑ ∑ e[n]

Bộ lọc thời gian dài (pitch) Bộ lọc thời gian ngắn

(formants) Giảm thiểu sai số

A(z) AL(z)

W(z) Lựa chọn/tạo tín hiệu

kích thích

Tín hiệu kích thích

Bộ lọc cơ quan phát âm

1

i

Tuỳ theo mỗi loại mã hố mà bộ tạo tín hiệu kích thích này khác nhau. Mặc dù sơ đồ trên là chung cho các bộ mã hố lai nhưng một số loại khơng sử dụng bộ lọc LTP hoặc vị trí STP và LTP thay đổi.

Hàm AL(z), A(z) là đa thức thu được trực tiếp từ phép biến đổi z của phương trình sai phân tuyến tính hoặc từ phép biến đổi Laplace của phương trình vi phân tuyến tính liên tục chuyển qua gián đoạn với khoảng thời gian T và thay biến s bằng biến z

(biến đổi song tuyến tính - bilinear transform)

với: z  esT

(1.2)

Sau khi lấy loga cả hai vế, xấp xỉ bằng chuỗi sẽ thu được cặp biểu thức ở dưới. Đây là biến đổi song tuyến tính:

s  2 z 1 và z 1 sT /

2 (1.3)

T z 1 1 sT / 2

Đa thức AL(z), A(z) có dạng sau [5,8,30] :

1  1 (1.4) A(z) p i1 AL(z) = 1 − $$ zi � �"#"! !%"$ ! (1.5)

Ở đây p, I là bậc của đa thức, α là hệ số bộ lọc LP, β là hệ số khuếch đại, i là chỉ số, T là độ trễ của bộ lọc Pitch, z là các mẫu sau đầu ra bộ lấy mẫu.

a. Dự đốn tuyến tính (LP) dựa trên mơ hình phát âm

Dự đốn tuyến tính và hệ thống tuyến tính có vai trị rất quan trọng trong xử lí số nói chung và đặc biệt là xử lý tiếng nói. Nó là một công cụ kỹ thuật rất hiệu quả để ước lượng các thơng số của tiếng nói như pitch, tần số formant, phổ ... khá chính xác với tốc độ tính tốn nhanh.

s[n]

1/h[n]

Một phần của tài liệu Xây dựng thuật toán truyền dữ liệu qua kênh thoại của mạng GSM và ứng dụng thuật toán sinh số giả ngẫu nhiên dựa trên các dãy phi tuyến lồng ghép để bảo mật dữ liệu (Trang 39 - 43)

Tải bản đầy đủ (DOC)

(134 trang)
w