Xử lý tín hiệu: Xử lý âm thanh

MỤC LỤC

Nhắc lại một số khái niệm toán học trong xử lý âm thanh .1 Phép biến đổi z [5]

X(z) còn được gọi là dãy công suất vô hạn theo biến z−1 với các giá trị của x(n) chính là các hệ số của dãy công suất. Biến đổi Fourier của tín hiệu rời rạc thời gian được cho bởi biểu thức. Biến đổi Fourier là trường hợp đặc biệt của phép biến đổi z bằng cách thay thế z=eiw.

Một đặc tính quan trọng của biến đổi Fourier của một chuỗi là X(eiw)là hàm điều hòa w, với chu kỳ là 2π. Lưu ý một điều là chỉ dùng phép biến đổi DFT cho tín hiệu tuần hoàn có tính chất là module của N.

MÔ HÌNH XỬ LÝ ÂM THANH .1 Các mô hình lấy mẫu và mã hoá thoại

Các mô hình dùng trong xử lý âm thanh [11]

Phát hiện đỉnh và ghép (Peak detection and continuation): để thực hiện việc phân tích các thành phần hình sin từ tín hiệu thặng dư, ta phải tìm được và ghi chú lại các đỉnh tần số nổi trội, tức là các thành phần hình sin nắm vai trò chính trong công thức phân tích được. Tổng hợp lại các thành phần sin: Trong giai đoạn tổng hợp lại, các thành phần sin có thể được tạo bởi bất kỳ phương pháp nào như máy tạo dao động số, máy tạo dao động bảng sóng hoặc tổng hợp lấy mẫu bảng sóng, hoặc kỹ thuật dựa trên cơ sở FFT. Ý tưởng chính của việc trích âm đệm trong thực tế từ việc quan sát rằng, các tín hiệu hình sin trong miền thời gian được ánh xạ qua miền tần thành các đỉnh có vị trí xác định, trong khi đó các xung ngắn đối ngẫu trong miền thời gian khi được ánh xạ qua miền tần lại có dạng hình sin.

Trong phương pháp kinh điển và linh động nhất về tổng hợp các dạng sóng có chu kỳ (bao gồm tín hiệu dạng sin) là việc đọc lặp đi lặp lại một bảng chứa nội dung của một dạng sóng đã được lưu trữ trước. Bài toán thiết kế máy tạo dao động bảng sóng có thể chuyển thành bài toán thay đổi tần số lấy mẫu, ví dụ như biến đổi tín hiệu được lấy mẫu tại tần số lấy mẫu Fs,1 thành tín hiệu được lấy mẫu tại tần số Fs,2. Trong liên lạc thông tin, FM được dùng trong các thập kỹ gần đây, nhưng ứng dụng của nó trong giải thuật tổng hợp âm thanh trong miền thời gian rời rạc được biết đến với cái tên John Chowning.

Khái niệm tổng hợp âm thanh bằng méo phi tuyến – Nonlinear distortion (NLD) rất đơn giản: ngừ ra của mạch tạo dao động được dựng như là thụng số của một hàm phi tuyến. Trong miền thời gian rời rạc số, hàm phi tuyến được lưu trữ trong một bảng, và ngừ ra của bộ dao động được dùng như là chỉ số để truy nhập vào bảng. Điều thú vị của NLD là lý thuyết này cho phép thiết kế một bảng méo cho bởi các đặc điểm kỹ thuật của một phổ mong muốn. Nếu bộ tạo dao động có dạng tín hiệu sin, ta có thể tính toán NLD như sau ).

Mô hình thời gian rời rạc [12]

Như vậy, với tính chất (31), nếu hàm méo phi tuyến là đa thức Chebyshev cấp độ m, giá trị ngừ ra y cú được bằng cỏch sử dụng bộ dao động sin x(n)=cosω0n, như vậy. Ngoài các mô hình trên, các mô hình vật lý cũng được áp dụng trong việc tổng hợp, xử lý âm thanh như mạch dao động vật lý, mạch dao động đôi và mạch phân phối cộng hưởng một chiều. Trong trường hợp lấy mẫu tín hiệu âm thoại, một chuỗi có thể được xem như là một dãy các mẫu của tín hiệu tương tự được lấy mẫu một cách đều đặn với thời gian lấy mẫu là T, khi đó tín hiệu sau khi lấy mẫu được ký hiệu bởi xa(nT).

Hệ thống tuyến tính dịch bất biến là hệ thống đặc biệt hữu dụng cho việc xử lý tín hiệu âm thoại. Hệ thống được đặc trưng bởi đỏp ứng xung, h(n), khi đú tớn hiệu ngừ ra được tớnh bởi công thức.

LÝ THUYẾT VÀ CÁC BÀI TOÁN CƠ BẢN .1 Phân tích dự đoán tuyến tính [12]

Dự đoán tuyến tính trong xử lý thoại [13]

Đối với việc đơn giản hóa mô hình xử lý thoại, giải thuật dự đoán tuyến tính (LPC) là một trong những giải thuật áp dụng tạo các bộ mã hóa chuẩn cho việc xử lý âm hoạt động ở tần số thấp. Ở tốc độ 2.4kbps, bộ mã hóa FS1015 LPC [Hãng Tremain, 1982] là một bước tiến vượt bật trong ngành xử lý âm thanh; mặc dù chất lượng của âm thanh được giải mã không cao, nhưng hệ thống giải mã đơn giản và dễ hiểu. Ban đầu, trong việc phát triển cho việc truyền thông bảo mật thuộc các ứng dụng quân sự, bộ mó húa FS1015 được đặc trưng bởi tớn hiệu thoại mó tổng hợp ngừ ra thường cần đến cỏc nhõn viên vận hành tổng đài đã được huấn luyện sử dụng.

Mặc dù hầu hết các bộ mã hóa thoại dựa vào công nghệ LP đạt được hiệu suất cao hơn ngày nay, nhưng về cơ bản, hoạt động của chúng là có nguồn gốc từ LPC, việc cải tiến nhằm mục đích đạt được chất lượng tốt hơn và hiệu suất mã hóa tối ưu hơn. Như vậy, phụ thuộc vào trạng thái âm thanh thoại hay phi thoại của tín hiệu, mạch chuyển được thiết lập ở vị trớ thớch hợp sao cho ngừ vào tương ứng sẽ được chọn đưa vào mạch. Bộ lọc đầu dùng để hiệu chỉnh phổ của tín hiệu ngừ vào, bộ nhận dạng tiếng núi phõn loại khung hiện tại đang xử lý là tớn hiệu thoại hay phi thoại và cỏc ngừ ra một bit biểu thị trạng thỏi của õm thoại.

Giới hạn 4: Phương pháp thực hiện việc tổng hợp các khung thoại, trong khi một chuỗi xung dùng để kích thích bộ lọc tổng hợp với các hệ số có được từ việc phân tích LP vi phạm nền tảng của mô hình AR.

Hình  1.35 Mô hình LPC tổng hợp tiếng nói
Hình 1.35 Mô hình LPC tổng hợp tiếng nói

PHÂN TÍCH CHẤT LƯỢNG XỬ LÝ THOẠI .1 Các phương pháp mã hoá

Các tham số liên quan đến chất lượng thoại

ƒ Tham số đánh giá cường độ âm lượng/tổn hao tổng thể (OLR-Overall Loudness Rating): OLR của hệ thống phải không được vượt quá giới hạn được định nghĩa trong khuyến nghị G.111 của ITU-T. Các giá trị đánh giá tổn hao phía phát và thu (SLR và RLR) đối với hệ thống GSM được đánh giá cho đến giao diện POI. Tuy nhiên, tham số ảnh hưởng chính là đặc tính của MS gồm cả bộ chuyển đổi tương tự - số (ADC) và số tương tự (DAC).

ƒ Trễ: thời gian truyền dẫn tín hiệu giữa hai đầu cuối gây ra những khó khăn trong việc hội thoại. Trễ bao gồm: trễ chuyển mã thoại, trễ mã hóa kênh, trễ mạng và trễ xử lý tín hiệu thoại để loại bỏ tiếng vọng và giảm nhiễu ở chế độ Handsfree. ƒ Cắt ngưỡng (clipping): là hiện tượng mất phần đầu hoặc phần cuối của cụm tín hiệu thoại.

Các phương pháp đánh giá chất lượng thoại cơ bản

ƒ Xuyên âm (sidetone loss). b) Các phương pháp ước lượng tuyệt đối: dựa trên việc ước lượng tuyệt đối chất lượng tín hiệu thoại (phương pháp này không sử dụng các tín hiệu chuẩn đã biết); vd: INMD (sử dụng trong khuyến nghị P.561 của ITU-T). c) Các mô hình đánh giá truyền dẫn: phương pháp này xác định giá trị chất lượng thoại mong muốn dựa trên những hiểu biết về mạng; vd: mô hình ETSI Model. Tuy vậy, trong các phương pháp này thì phương pháp so sánh (hay còn gọi là intrusive methods) có kết quả đánh giá chính xác nhất. Các phương pháp đánh giá các cũng có thể được sử dụng cho một số ứng dụng đặc thù. Hình 1.41 Phân loại các phương pháp đánh giá chất lượng thoại: a) Các phương pháp so sánh, b) Các phương pháp ước lượng tuyệt đối, c) Các mô hình đánh giá truyền dẫn. Cả hai khuyến nghị ITU này mô tả: phương thức đánh giá, cách tính điểm theo phương thức đánh giá chủ quan, giá trị của điểm, tính chất của các mẫu thoại được sử dụng để đánh giá và các điều kiện khác mà việc kiểm tra chất lượng được thực hiện.

So sánh được thực hiện theo từng phân đoạn thời gian (khung thời gian) trong miền tần số (được biết đến là các phần tử thời gian - tần số) hoạt động dựa trên các tham số lấy từ mật độ phổ công suất của tín hiệu vào và ra của các phần tử thời gian - tần số. Trong bước đầu tiên của PESQ, một loạt các trễ tín hiệu giữa tín hiệu vào ban đầu và tín hiệu ra được xác định; mỗi giá trị trễ được tính cho một khoảng thời gian mà có sự khác biệt về độ trễ so với phân đoạn thời gian trước đó. Quá trình này được thực hiện theo nhiều giai đoạn: sắp xếp về mặt thời gian, sắp xếp mức tín hiệu về mức tín hiệu nghe đã được căn chỉnh, ánh xạ thời gian - tần số, frequency warping và căn chỉnh cường độ âm.

Một mô hình máy tính của chủ thể bao gồm mô hình giác quan và mô hình kinh nghiệm được sử dụng để so sánh tín hiệu đầu ra với tín hiệu gốc sử dụng các thông tin sắp xếp lấy được từ các tín hiệu định thời trong môđun sắp xếp định thời.

Hình  1.41 Phân loại các phương pháp đánh giá chất lượng thoại: a) Các phương pháp so sánh, b)
Hình 1.41 Phân loại các phương pháp đánh giá chất lượng thoại: a) Các phương pháp so sánh, b)