1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

BÀI GIẢNG XỬ LÝ ÂM THANH VÀ HÌNH ẢNH docx

151 1,4K 30
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 151
Dung lượng 4,13 MB

Nội dung

Trong những năm gần đây, cùng với sự tiến bộ của khoa học kỹ thuật, sự phát triển mạnh mẽ của máy tính, thông tin di động và của Internet thì nhu cầu trao đổi các dịch vụ truyền thông đa

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Trang 2

MỤC LỤC i

1.2 Vai trò của xử lý âm thanh và hình ảnh trong truyền thông đa

2.1.1 Khái niệm về âm thanh và các tham số đánh giá 12

2.1.2 Các đặc điểm của hệ thống thính giác con người 14

2.2.2 Tổng quan về mã hóa tín hiệu thoại 25

3.1.1 Khái niệm cơ bản về ảnh và xử lý ảnh, video 43

3.1.2 Các ứng dụng phổ biến của xử lý ảnh 44

3.1.4 Các thành phần của hệ thống xử lý ảnh số 50

Trang 3

3.2.1 Cơ sở của cảm nhận thị giác 65

3.3.2 Hiệu quả của quá trình nén và chất lượng ảnh 88

3.3.4 Các phương pháp mã hoá dùng trong kỹ thuật nén không tổn

Chương 4: Các chuẩn mã hóa âm thanh và nén ảnh trong truyền thông đa

phương tiện

121

4.4 Các chuẩn nén Video MPEG-1, 2, 4, 7 và MPEG-21 130

Trang 4

Trong những năm gần đây, cùng với sự tiến bộ của khoa học kỹ thuật, sự phát triển mạnh mẽ của máy tính, thông tin di động và của Internet thì nhu cầu trao đổi các dịch vụ truyền thông đa phương tiện trên mạng thông tin là rất lớn đặc biệt là các ứng dụng truyền âm thanh và video thời gian thực qua mạng IP như âm nhạc theo yêu cầu, video phone, video-conferencing, tele-medical hay video theo yêu cầu…Cho nên, vấn đề xử lý âm thanh và hình ảnh sao cho có hiệu quả cao, đảm bảo tiết kiệm băng thông truyền dẫn, giảm bớt không gian lưu trữ để truyền thông tin trên mạng một cách dễ dàng và nhanh chóng trở nên cấp thiết hơn bao giờ hết

Bài giảng “Xử lý âm thanh và hình ảnh” sẽ giới thiệu những kiến thức cơ bản về các

kỹ thuật xử lý âm thanh, hình ảnh, video và đặc biệt chú trọng đến các phương pháp nén, lưu trữ, các tiêu chuẩn nén âm thanh, hình ảnh, video đã và đang được ứng dụng trong truyền thông đa phương tiện nhằm đảm bảo chất lượng âm thanh, hình ảnh và tăng hiệu suất truyền dẫn thông tin

Nội dung của bài giảng bao gồm:

• Chương 1: Giới thiệu chung: Giới thiệu tổng quan các khái niệm và lý thuyết

cơ sở phục vụ cho môn học và vai trò của xử lý âm thanh và hình ảnh ứng dụng trong truyền thông đa phương tiện

• Chương 2: Kỹ thuật xử lý âm thanh: Giới thiệu các đặc trưng cơ bản của âm thanh, phân tích các đặc điểm của cơ quan phát âm và tạo ra tiếng nói của con người, các phương pháp mã hóa thoại, âm thanh

• Chương 3: Kỹ thuật xử lý ảnh: Tập trung trình bày các khái niệm cơ bản về ảnh và video; giới thiệu về kỹ thuật xử lý ảnh, nén ảnh tĩnh, nén video

• Chương 4: Các chuẩn nén âm thanh và hình ảnh: Giới thiệu các chuẩn nén thoại, âm thanh, các chuẩn nén ảnh JPEG và nén video MPEG, H26x

Mặc dù đã có nhiều cố gắng, song do đây là lần biên soạn đầu tiên và còn có nhiều hạn chế về thời gian nên bài giảng này không tránh khỏi thiếu sót Rất mong nhận được sự đóng góp của các đồng nghiệp, các học viên, sinh viên và bạn đọc để bài giảng này được hoàn thiện hơn

Những ý kiến đóng góp xin gửi về:

Bộ môn Kỹ thuật Chuyển mạch- Khoa Viễn thông 1

Học Viện Công nghệ Bưu chính Viễn thông

Địa chỉ: Km 10, đường Hà Nội – Hà Đông, Hà Đông, Hà Nội

Trang 5

ADSL Asymmetric Digital Subscriber Line Đường dây thuê bao số bất đối

xứng ADPCM Adaptive Differential Pulse Code Modulation Điều chế xung mã vi sai thích ứng

CABAC Context Adaptive Binary Arithmetic Coding Mã hoá thuật toán nhị phân theo tình huống CCD Charge Coupled Device Thiết bị cảm biến quang điện bán dẫn CIF Common Intermediate Format Khuôn dạng trung gian chung DCT Discrete Cosine Transform Biến đổi Cosin rời rạc

DFT Discrete Fourier Transform Biến đổi rời rạc Fourier

DPCM Differential Pulse Code Modulation Điều chế xung mã vi sai

DSLAM Digital Subscriber Line Access

DVB Digital Video Broadcasting Quảng bá truyền hình số

DWT Descrete Wavelet Transform Biến đổi Wavelet rời rạc

EBCOT Embedded Block Coding with Optimal

Truncation

Mã hóa khối nhúng với cắt giảm tối

ưu EDTV Extended Definition TeleVision Truyền hình mở rộng

GIF Graphics Interchange Format Định dạng trao đổi ảnh

HDTV High-Definition TeleVision Truyền hình độ phân giải cao

ICT Irreversible color transform Chuyển đổi màu không thuận nghịch IGMP Internet Group Management Protocol Giao thức quản lý nhóm Internet

IPTV Internet Protocol Television Truyền hình dựa trên Internet ISO International Organization for Standardization Tổ chức chuẩn quốc tế

JPEG/ JVT Joint Photographic Experts Group/ Joint

Trang 6

MoD Music on Demand Âm nhạc theo yêu cầu

MPEG Moving Picture Experts Group Nhóm chuyên gia về ảnh động NTSC National Television System Committee Ủy ban hệ thống truyền hình quốc gia

PDF Portable Document Format Định dạng tài liệu linh động

QCIF Quarter Common Intermediate Format Định dạng có độ phân giải ¼ CIF RAC Relative Address Coding Mã hóa địa chỉ tương đối

RCT Reversible Color Transform Chuyển đổi thuận nghịch

RLC/ RLE Run Length Coding/ Encoding Mã hóa độ dài chạy

TIFF Tagged Image File Format Khuôn dạng file tiêu chuẩn

VDSL Very High Speed Digital Subscriber

động

chuyển động

Trang 7

Chương 1: Giới thiệu chung

1.1 Các khái niệm và lý thuyết cơ sở

1.1.1 Tín hiệu

1.1.1.1 Định nghĩa

Tín hiệu là biểu diễn vật lý của thông tin Trong thực tế, các tín hiệu nhìn thấy là các sóng ánh sáng mang thông tin tới mắt của con người và các tín hiệu nghe thấy là các

sự biến đổi của áp suất không khí truyền thông tin tới tai chúng ta

Về mặt toán học, tín hiệu được biểu diễn bởi hàm của một hoặc nhiều biến số độc lập Ví dụ, tín hiệu âm thanh có biên độ âm biến đổi theo thời gian như ở hình vẽ dưới đây

Hình 1.1: Tín hiệu âm thanh

Tổng quát hơn, tín hiệu có thể biến đổi theo hai chiều: không gian/thời gian Ví dụ với ảnh, có màu biến đổi theo không gian hai chiều; với video, màu biến đổi theo cả không gian và thời gian

1.1.1.2 Tín hiệu liên tục

Nếu biến độc lập của sự biểu diễn toán học của một tín hiệu là liên tục, thì tín hiệu

đó được gọi là liên tục Dựa theo biên độ, người ta có thể phân loại tín hiệu liên tục thành: tín hiệu tương tự và tín hiệu lượng tử hóa

Trang 8

Nếu biên độ của tín hiệu liên tục là liên tục thì tín hiệu đó được gọi là tín hiệu tương tự Còn nếu biên độ của tín hiệu liên tục là rời rạc thì tín hiệu đó được gọi là tín hiệu lượng tử hóa

1.1.1.3 Tín hiệu rời rạc

Nếu tín hiệu được biểu diễn bởi hàm của các biến rời rạc thì tín hiệu đó được gọi là tín hiệu rời rạc Dựa theo biên độ, người ta có thể phân loại tín hiệu rời rạc thành: tín hiệu lấy mẫu và tín hiệu số

Nếu biên độ của tín hiệu rời rạc là liên tục (không được lượng tử hóa) thì tín hiệu

đó được gọi là tín hiệu lấy mẫu Còn nếu biên độ của tín hiệu rời rạc là rời rạc thì tín hiệu

đó được gọi là tín hiệu số

1.1.2 Số hóa tín hiệu tương tự

Nói chung tín hiệu tương tự thì liên tục theo thời gian và giá trị Theo quan điểm lý thuyết thông tin, lượng thông tin chứa trong tín hiệu tương tự là vô hạn Rõ ràng, điều này này tạo ra quan hệ với các tín hiệu này một nhiệm vụ khó khăn trong điều kiện dung lượng

bộ nhớ và năng lực xử lý của máy tính bị hạn chế Mặt khác, các tín hiệu số chỉ xuất hiện trong những khoảng thời gian nhất định và chỉ được biểu diễn bằng các giá trị biên độ rời rạc Sự suy giảm thông tin này là mục tiêu làm cho quá trình xử lí thêm hữu ích và trên thực tế là những bước nén đầu tiên

Số hóa là phương pháp giảm lượng thông tin đến mức hợp lý bằng cách lấy những giá trị đại diện có tính toán cân nhắc kỹ Việc này làm thành hai phần Phần lấy mẫu theo thời gian và lấy mẫu biên độ Theo lý thuyết cả hai bước độc lập nhau, trong thực tế,

chúng thường được thực hiện bởi cùng phần tử xử lý là bộ chuyển đổi tương tự thành số (ADC) Đó là sự số hóa trong giới hạn để thu được thông tin mong muốn có ích chứa trong tín hiệu tương tự và loại bỏ thông tin dư thừa không cần thiết Cho nên chúng ta phải biết các thuộc tính của các tín hiệu cần thiết được số hóa để thực hiện biến đổi tín hiệu tương

tự sang tín hiệu số một cách thích hợp

Thuộc tính chung của tín hiệu video và âm thanh bao gồm băng tần, tỉ số tín hiệu trên nhiễu, tỉ số tín hiệu trên méo, và dải động Độ rộng băng tần miêu tả sự thay đổi tín hiệu tương tự khả dụng trong quãng thời gian cho trước, nó lần lượt xác định số lượng mẫu được lấy trong một đơn vị thời gian để bảo toàn được thông tin chứa trong tín hiệu Thông tin về dải động và các nhân tố khác (ví dụ như nhiễu chồng lấn tín hiệu) xác định

độ chính xác biên độ của tin hiệu phải được giữ để chống lại bất kỳ tạp âm chú ý hay không mong muốn

Để chuyển đổi tín hiệu tương tự sang tín hiệu số, tín hiệu tương tự thường được lấy

Trang 9

rồi được gán với một từ mã số Vì thế tín hiệu số là một chuỗi với tốc độ bit không đổi hình thành từ quá trình xử lí lấy mẫu với mã số nhị phân độ dài bằng nhau

Hình 1.2 mô tả việc lấy mẫu tín hiệu Tín hiệu vào tương tự liên tục theo thời gian

x(t) được lọc thông qua bộ lọc ngoài Sau đó đi qua bộ lấy mẫu, bộ này là một mạch điện

lấy mẫu với tần số f s lớn hơn hai lần tần số lớn nhất của tín hiệu Bộ lấy mẫu biến đổi tín hiệu tương tự thành tín hiệu rời rạc theo thời gian, tín hiệu này sau đó, trong đoạn sau của

bộ chuyển đổi ADC, được lượng tử hoá và gán bởi một từ mã nhị phân Toàn bộ quá trình trên được minh họa trong hình 1.3

Hình 1.2: Lấy mẫu tín hiệu tương tự

Hình 1.3: Nguyên lý cơ bản của xử lý số tín hiệu

Tín hiệu được lấy mẫu và được lượng tử hóa như trên được gọi là điều chế xung

mã PCM (Pulse Code Modulation) vì mỗi một mẫu được mã hóa độc lập với các mẫu khác và các từ mã có chiều dài không đổi Mỗi từ mã bao gồm nhiều bit: 8 đến 10 bít được

sử dụng cho tín hiệu video; 8 bit cho tín hiệu âm thanh ở dải tần thấp và 16 đến 20 bít dùng cho tín hiệu âm thanh yêu cầu chất lượng cao

Trang 10

1.1.3 Biến đổi Fourier

Biến đổi là công cụ khá mạnh cho việc mô hình hóa nội dung thông tin và áp dụng cho các nguyên lý nén Trong lĩnh vực âm thanh, một biến đổi cho phép ta thấy nội dung thông qua phổ âm thanh Trong lĩnh vực video (hình ảnh động), các phép biến đổi có thể giúp ta phân tích tần số không gian trong từng bức tranh đơn lẻ; và nó có thể cũng được sử dụng ở các chu kỳ theo chiều cao hoặc độ rộng của bức tranh

Phân tích Fourier dựa trên việc bất kỳ một dạng sóng tín hiệu tuần hoàn nào đều có thể được tái cấu trúc thành một số các tín hiệu hình sin có biện độ và pha thay đổi và có quan hệ điều hòa với nhau

Biến đổi Fourier là một công cụ mạnh và được ứng dụng khá nhiều trong xử lý âm thanh và hình ảnh Lưu ý rằng, các tín hiệu âm thanh và video hiếm khi là tổ hợp của các tín hiệu có tính chu kỳ nên chúng ta cần xác định rõ cửa sổ thời gian hoặc không gian mà chúng ta sẽ áp dụng khi biến đổi

1.1.3.1 Biến đổi Fourier thuận

Nếu dãy x(n) thoả mãn điều kiện:

n

j

e n x e

Biến đổi Fourier đã chuyển dãy số x(n) thành hàm phức X(e jω), (1.2) là biểu thức

biến đổi Fourier thuận và được ký hiệu như sau:

) ( )]

(

= e j n

(FT là chữ viết tắt của thuật ngữ tiếng Anh Fourier Transform)

Ký hiệu X(e jω) để phân biệt phép biến đổi Fourier của dãy số x(n)

) (

Trang 11

Biểu thức biến đổi Fourier của dãy số x(n) (1.2) là suất phát từ biểu thức biến đổi Fourier của hàm liên tục x(t), vì khi hàm dưới dấu tích phân là dãy rời rạc thì phải thay

dấu tích phân bằng dấu tổng

Do tính chất tuần hoàn của hàm mũ e jω, nên X(e jω) là hàm tuần hoàn của biến ωvới chu kỳ 2π :

) ( )

( )

( )

( (ω 2π) (ω 2π). jω.n jω

n

n k j

n

k j

e e

n x e

n x

Sử dụng biến đổi Fourier cho phép nghiên cứu phổ của tín hiệu số và đặc tính tần

số của hệ xử lý số Nếu x(n) là tín hiệu số thì [ ( )] ( ∞ )

= e j n

x

FT X là phổ của tín hiệu x(n), còn với h(n) là đặc tính xung của hệ xử lý số thì [ ( )] ( ∞ )

= e j n

h

FT H là đặc tính tần số của

hệ xử lý số

1.1.3.2 Biến đổi Fourier ngược

Biến đổi Fourier ngược cho phép tìm dãy x(n) từ hàm ảnh X(e jω) Để tìm biểu thức

của phép biến đổi Fourier ngược, xuất phát từ biểu thức Fourier thuận (1.2):

n j

n

j

e n x e

π π

π π

ω ω

ω ω

ω

ω ω

d e

n n

m j n j m

j j

n m khi d

Nên : X(e j ).e j n d 2π.x(n)

π π

ω ω

ω ω

(

[X e j x n

Trang 12

Hay :

) ( )

(e j IFT x n

(IFT là chữ viết tắt của thuật ngữ tiếng Anh Inverse Fourier Transform)

Biểu thức biến đổi Fourier thuận (1.6) và biểu thức biến đổi Fourier ngược (1.7) hợp thành cặp biến đổi Fourier của dãy số x(n)

1.1.4 Biến đổi Cosin rời rạc

Phép biến đổi được xem là tốt nhất cho nén ảnh là phép biến đổi cosin rời rạc (DCT) DCT là một trường hợp đặc biệt của biến đổi Fourier

Biến đổi DCT là một công đoạn chính trong các phương pháp nén sử dụng biến đổi Hai công thức ở đây minh hoạ cho 2 phép biến đổi DCT thuận nghịch đối với mỗi

khối ảnh có kích thước 8 x 8 Giá trị x(n 1 , n 2 ) biểu diễn các mức xám của ảnh trong miền

không gian, X(k 1 , k 2 ) là các hệ số sau biến đổi DCT trong miền tần số

(1.10)

(1.11)

với

1.1.5 Biến đổi Wavelet

Biến đổi Wavelet là phép biến đổi được sử dụng để phân tích các tín hiệu không

ổn định (non-stationary) – là những tín hiệu có đáp ứng tần số thay đổi theo thời gian Biến đổi Wavelet được thực hiện theo cách: tín hiệu được nhân với hàm Wavelet rồi thực hiện biến đổi riêng rẽ cho các khoảng tín hiệu khác nhau trong miền thời gian tại các tần số khác nhau Cách tiếp cận như vậy còn được gọi là: phân tích đa phân giải – MRA (Multi Resolution Analysis): phân tích tín hiệu ở các tần số khác nhau và cho các độ phân giải khác nhau MRA khi phân tích tín hiệu cho phép: phân giải thời gian tốt và phân giải

Trang 13

thấp Như vậy kỹ thuật này rất thích hợp với những tín hiệu: có các thành phần tần số cao xuất hiện trong khoảng thời gian ngắn, các thành phần tần số thấp xuất hiện trong khoảng thời gian dài chẳng hạn như ảnh và khung ảnh video

1.1.5.1 Biến đổi Wavelet liên tục

Bằng cách lấy thang tỉ lệ (scaling) và dịch chuyển một hàm thời gian ψ(t) gọi wavelet mẹ hay wavelet cơ sở, ta được một họ wavelet:

(1.12)

trong đó a là thông số thang tỉ lệ chỉ sự co giãn của wavelet, b là thông số dịch chuyển

chỉ vị trí thời gian của wavelet Dạng sóng tổng quát của các wavelet trong cùng họ được bảo toàn trong mọi co giãn và tịnh tiến

Biến đổi wavelet liên tục (CWT) của một hàm thời gian (tín hiệu) x(t) được định

nghĩa như sau:

(1.13)

trong đó * chỉ liên hiệp phức, 〈⋅〉 chỉ tích nội Biến đổi wavelet W x (a,b) diễn tả sự tương

quan giữa tín hiệu x(t) và wavelet ψ a,b (t) Biến đổi thuận ở trên là phân tích, ngược lại là tổng hợp để phục hồi tín hiệu thời gian

1.1.5.2 Biến đổi Wavelet rời rạc

Biến đổi wavelet liên tục chứa nhiều trùng lắp và đòi hỏi tính toán công phu nên ít được dùng Cả hai trở ngại trên được giải quyết đồng thời bằng cách rời rạc hóa thông số

Trang 14

(1.17)

Việc tổng hợp sẽ cho lại tín hiệu thời gian:

(1.18)

1.2 Vai trò của xử lý âm thanh và hình ảnh trong truyền thông đa phương tiện

Truy cập thông tin đa phương tiện khắp mọi nơi bây giờ là động lực chính cho việc thiết kế những mạng máy tính và mạng truyền thông thế hệ mới Hơn nữa, các sản phẩm đang được phát triển để mở rộng khả năng tại tất cả các kết nối mạng hiện có để hỗ trợ lưu lượng truyền thông đa phương tiện Đây là một sự chuyển dịch từ mạng điện thoại tương

tự phát triển bởi Bell System đến mạng chuyển mạch gói dữ liệu – cơ sở của mạng Internet đến mạng truyền thông hợp nhất hỗ trợ người dùng ở khắp mọi nơi

Đa phương tiện là sản phẩm của quá trình kết hợp dữ liệu, thoại, đồ họa, âm thanh, hình ảnh và video theo một cách thức nhất định để phục vụ nhu cầu truyền thông của con người Truyền thông đa phương tiện liên quan đến việc truyền thông tin đa phương tiện qua mạng truyền thông

Ngày nay, các công nghệ truyền thông hiện đại đã trở thành một phần không thể thiếu trong giao tiếp hằng ngày của chúng ta Nó đã làm thay đổi nhanh chóng cách sống của chúng ta, cách tiếp nhận sự giáo dục, cách làm việc và là phần cơ bản tất yếu giúp thực hiện nhiệm vụ một cách suôn sẻ trong xã hội đương thời cũng như cuộc sống cá nhân của mỗi con người Sự lớn mạnh một cách nhanh chóng trong kỹ thuật truyền thông của chúng ta là một cuộc cách mạng đã làm thay đổi xã hội chỉ trong một thời gian ngắn cuối thế kỷ 20, đặc biệt là trong hai thập kỷ cuối

Trong những tiến bộ của cuộc cách mạng truyền thông gần đây, chúng ta thấy có bốn phát triển kỹ thuật đã làm thay đổi toàn cảnh trong lĩnh vực viễn thông Đầu tiên là sự tăng nhanh của tốc độ trao đổi thông tin, với sự đột phá của công nghệ cáp quang, việc truyền thông tin đã được nâng lên từ khoảng 100Mbps cho một sợi quang bắt đầu từ năm

1980 cho đến bây giờ là 400Gbps Dung lượng sợi quang đến 4000 lần chỉ trong vòng 20 năm qua

Thứ 2 là, sự có mặt khắp nơi của các mạng chuyển mạch gói bởi sự phổ biến một cách nhanh chóng của Internet và các trang Web Sự ra đời và phát triển của Internet và Web đã tạo ra một nền tảng chung cho chúng ta chia sẻ nhiều loại thông tin một cách nhanh chóng trong nhiều mối quan hệ theo nhiều cách khác nhau So sánh với các mạng chuyển mạch kênh truyền thống thì các mạng chuyển mạch gói có chi phí hiệu quả hơn và

có năng lực xử lý và phục vụ tốt hơn Hơn nữa, việc bổ sung thêm nhiều dịch vụ mới và những ứng dụng mới dễ dàng và linh hoạt hơn so với mạng chuyển mạch kênh

Trang 15

Thứ 3 là sự phát triển của truyền thông không dây Hơn hai thập niên trước đây, tất

cả mọi người đều biết rất ít về truyền thông cá nhân không dây, nhưng ngày nay nó đã được đón nhận nồng nhiệt bởi cả cộng đồng và công việc kinh doanh của nó đang lớn mạnh từng ngày ở khắp mọi nơi Công nghệ truyền thông không dây đã phát triển từ những hệ thống tương tự đầu tiên (1G) cho đến thế hệ thứ hai (2G) là hệ thống kĩ thuật số,

và nó hiện đang tiếp tục tiến triển đến thế hệ thứ 3 (3G), thứ 4 (4G) mà ở đó có sự tối ưu cho cả các dịch vụ truyền thông thoại, dữ liệu, ảnh và video hợp nhất

Thứ 4 là nhu cầu phát triển truy nhập băng thông rộng qua các kết nối như đường dây thuê bao số DSL (Digital Subscriber Line) hoặc cáp tới mạng Internet là rất lớn…Chính sự phát triển này cho thấy trước được truyền thông trong tương lai gần sẽ tiến tới các mạng chuyển mạch gói dung lượng cao, tốc độ truyền tải lớn với truy nhập băng rộng không dây vào bất kỳ lúc nào và ở bất kỳ đâu

Theo các nhà nghiên cứu, truyền thông đa phương tiện bao gồm rất nhiều chủ đề:

• Xử lý đa phương tiện và mã hóa: bao gồm phân tích nội dung đa phương tiện,

tìm kiếm đa phương tiện dựa trên nội dung, an ninh đa phương tiện, xử lý âm thanh, hình ảnh và video, nén

• Đa phương tiện hỗ trợ và hệ thống mạng: bao gồm các giao thức mạng, Internet,

các hệ điều hành, máy chủ và khách, chất lượng dịch vụ (QoS), và cơ sở dữ liệu

• Các công cụ đa phương tiện, hệ thống đầu cuối, và các ứng dụng Chúng bao

gồm hệ thống siêu đa phương tiện (hypermedia), giao diện người dùng, hệ thống phân quyền, tương tác đa phương thức, và tích hợp: có mặt khắp nơi "ubiquity" - thiết bị duyệt Web ở khắp mọi nơi, giáo dục đa phương tiện, bao gồm cả máy tính

hỗ trợ dạy học và thiết kế, và các ứng dụng của môi trường ảo

Từ đây chúng ta có thể thấy rằng xử lý âm thanh, hình ảnh và video mà đặc biệt là các kỹ thuật nén âm thanh, thoại, hình ảnh và video là một trong những nội dung nghiên cứu của truyền thông đa phương tiện, hỗ trợ đắc lực cho việc truyền tải cũng như lưu trữ các nội dung đa phương tiện một cách có hiệu quả nhất

Ví dụ như một tín hiệu âm thanh chất lượng cao cần xấp xỉ 1.5 Mbps hay một tín hiệu video màu độ phân giải thấp chất lượng TV chứa 30 khung hình/giây, với mỗi khung hình chứa 640x480 điểm ảnh (24 bit cho mỗi điểm ảnh màu) cần hơn 210 Megabit/giây cho lưu trữ Do đó, một giờ phim màu số hóa cần xấp xỉ 95 Gigabyte để lưu trữ Với tín hiệu video có độ phân giải cao – HDTV (High-Definition Television) có độ phân giải 1280x720 với 60 khung hình/giây thì đòi hỏi lưu trữ càng nhiều hơn nữa Một giờ phim màu số hóa của tín hiệu video HDTV sẽ cần khoảng 560 Gigabyte lưu trữ Hình chụp X-quang số hóa kích thước 14x17 inch2 chiếm gần 45 Megabyte lưu trữ

Trang 16

Hơn thế nữa, việc truyền những tín hiệu đa phương tiện có yêu cầu băng thông rất lớn qua những kênh truyền thông với băng thông giới hạn là một thách thức lớn và đôi khi không thể truyền được ở dạng thô của những tín hiệu đó Mặc dù giá thành lưu trữ đã giảm đáng kể qua thập niên vừa rồi, nhưng nhu cầu của những ứng dụng lưu trữ và xử lý

dữ liệu đang phát triển bùng nổ vượt qua tiến bộ này Hầu hết những tín hiệu như ảnh, video, và âm thanh thường chứa nhiều thông tin dư thừa trong biểu diễn của chúng Nén

dữ liệu nói chung cũng như nén âm thanh, thoại, hình ảnh và video là giảm dư thừa trong biểu diễn dữ liệu để giảm đòi hỏi lưu trữ dữ liệu và do đó giảm chi phí truyền thông

Những lợi ích và ứng dụng của nén dữ liệu được liệt kê dưới đây:

• Giảm không gian lưu trữ dữ liệu

• Giảm chi phí khi truyền khối lượng lớn dữ liệu trên đường dài qua việc tối

ưu băng thông đường truyền có sẵn

• Tăng chất lượng hiển thị qua kênh truyền có băng thông giới hạn Do đó, người dùng có thể thưởng thức những tín hiệu nghe nhìn chất lượng cao Ví dụ: kênh TV 6 MHz có thể mang tín hiệu HDTV với chất lượng âm thanh, hình ảnh tốt hơn ở tốc độ cao hơn và độ phân giải cao hơn mà không cần thêm băng thông đường truyền

• Vì việc giảm tốc độ dữ liệu bởi việc nén, mạng máy tính và Internet đang ngày càng trở nên thân thiện hơn về âm thanh và đồ họa, hơn là chỉ tập trung vào dữ liệu và văn bản như trước đây

• Tăng cường bảo mật dữ liệu nhờ mã hóa và truyền dữ liệu phân tán từ những tập tin cơ sở dữ liệu đã nén nhằm ngăn việc truy xuất những thông tin đã được sở hữu

• Tăng đáng kể tốc độ tính toán nhập-xuất trong thiết bị nhờ biểu diễn dữ liệu ngắn hơn

• Giảm chi phí sao lưu và khôi phục dữ liệu nhờ lưu trữ bản sao của những tập tin cơ sở dữ liệu ở dạng nén

• Những lợi ích này sẽ cho phép nhiều ứng dụng đa phương tiện hơn với giá thành giảm và do đó hướng tới nhiều người dùng hơn trong một tương lai gần

Tóm lại, nén dữ liệu đã tạo ra nhiều cơ hội cho những ứng dụng sáng tạo như thư viện số, lưu trữ số, hội nghị truyền hình từ xa, giải trí số…

Hiện tại, có rất nhiều các chuẩn nén âm thanh, thoại, hình ảnh và video đang được

sử dụng phổ biến trong truyền thông đa phương tiện như: G711, G729; JPEG; MPEG;

Trang 17

1.3 Kết luận chương 1

Chương 1 đã giới thiệu những khái niệm cơ bản liên quan đến âm thanh, hình ảnh

và video, trình bày về xu hướng phát triển của viễn thông: các nhu cầu về dịch vụ băng thông rộng, tốc độ cao và các hạn chế của công nghệ truyền dẫn, chuyển mạch liên quan

để thấy được vai trò của xử lý âm thanh, thoại, hình ảnh và video trong truyền thông đa phương tiện

Hướng dẫn ôn tập chương 1

1 Phân biệt các loại tín hiệu (liên tục, rời rạc)

2 Quá trình số hóa tín hiệu tương tự

3 Ý nghĩa của các biến đổi Fourier, DCT và Wavelet

4 Những lợi ích và ứng dụng của nén dữ liệu trong truyền thông đa phương tiện

5 Một tín hiệu hình Sin có biên độ 5V cần được biến đổi thành dạng số sao cho nhận được tỷ số tín hiệu trên tạp âm lượng tử hóa không thấp hơn 25 dB Yêu cầu cần bao nhiêu bước lượng tử hóa như nhau và cần có bao nhiêu bít để mã hóa mỗi thành phần rời rạc

6 Giả sử một tín hiệu có phân bố đều (uniform), được lượng tử đều 256 mức, có tỷ số S/N là 18dB Nếu muốn tăng tỷ số S/N của tín hiệu thành 30dB thì số mức lượng tử sẽ phải là bao nhiêu?

Trang 18

Chương 2: Kỹ thuật xử lý âm thanh

2.1 Các đặc trưng cơ bản của âm thanh

2.1.1 Khái niệm về âm thanh và các tham số đánh giá

Âm thanh trong thế giới tự nhiên về bản chất là những sóng âm được tạo ra từ dao động của vật thể và được truyền đi trong một môi trường truyền âm nhất định

Âm thanh của tiếng nói, tương tự, là những sóng âm được tạo ra từ dao động của các bộ phận trong bộ máy phát âm và được truyền đi trong môi trường truyền âm (thường

là không khí) Những sóng âm này truyền đến tai người nghe, đập vào màng nhĩ - một màng mỏng rất nhạy cảm của tai người – làm cho màng nhĩ cũng dao động, các dây thần kinh của màng nhĩ sẽ nhận được cảm giác âm khi tần số dao động của sóng đạt đến một

độ lớn nhất định và người nghe nhận biết được lời nói Liên lạc thông tin bằng tiếng nói

là truyền thông tin từ não người nói sang não người nghe Có thể xem như tiếng nói (thoại) là một trường hợp riêng nhưng phổ biến của âm thanh

Âm thanh có các tham số đánh giá đặc trưng sau đây:

1 Tần số: Tần số của âm đơn là số lần dao động của không khí truyền dẫn âm trong một

đơn vị thời gian là 1 giây Tần số biểu thị độ cao (pitch) của âm thanh Tần số càng lớn thì âm thanh càng cao và ngược lại Ðơn vị để đo tần số của âm thanh là Hertz (viết tắt là Hz)

Tai con người chỉ cảm thụ được những dao động có tần số từ khoảng 16Hz đến khoảng 20000Hz Dải tần số từ 16Hz đến 20000Hz được gọi là dải tần số âm thanh hay

âm tần hoặc sóng âm Những âm có tần số nhỏ hơn 16Hz gọi là sóng hạ âm, còn những

âm có tần số lớn hơn 20000 Hz gọi là sóng siêu âm và con người không cảm nhận được các sóng âm này nhưng có khá nhiều loài vật có thể cảm nhận được (ví dụ loài dơi có thể nghe được sóng siêu âm) Sóng âm, sóng siêu âm và hạ âm không chỉ truyền trong không khí mà còn có thể lan truyền tốt ở những môi trường rắn, lỏng, do đó sử dụng rất nhiều trong các thiết bị máy móc hiện nay

Ứng với mỗi tần số dao động f, có chu kỳ dao động T là một bước sóng λ của âm

thanh được xác định theo biểu thức λ = c.T (c là tốc độ lan truyền của âm thanh trong

không khí = 340m/s) Do đó, bước sóng của âm thanh trong dải âm tần là từ 21.25m đến 0.017m

Trong thực tế, một âm phát ra thường không phải là một âm đơn mà là một âm phức bao gồm một âm đơn và một số âm hài có tần số gấp 2, 3 hoặc 4… lần âm đơn Ngoài ra, trong dải âm tần người ta chia ra: tiếng trầm từ 16Hz đến 300Hz; tiếng vừa từ

Trang 19

300Hz đến 3000Hz và tiếng bổng (tiếng thanh) 3000Hz đến 12000Hz Tiếng nói con người thường có dải tần số từ 300Hz đến 3400Hz

2 Áp suất âm thanh: Áp suất âm thanh hay còn gọi là thanh áp Âm thanh truyền lan

đến đâu thì làm thay đổi áp suất không khí ở đó Áp suất do âm thanh tạo thêm ra ở một điểm gọi là thanh áp ở điểm đó Đơn vị đo thanh áp là bar Một bar là thanh áp tác động lên một diện tích 1cm2 một lực là 1dyn 1 bar = 1dyn/cm2 Tuy nhiên, ngày nay, người ta thường dùng đơn vị Pascan (Pa) để đo thanh áp 1 bar = 10 Kpa; 1 Pa = 1 N/m2

3 Công suất âm thanh: Là năng lượng âm thanh đi qua một diện tích S trong thời gian

một giây Công suất âm thanh P có thể tính bằng biểu thức:

Trong đó p là thanh áp, v là tốc độ dao động của một phần tử không khí tại đó và S

là diện tích Công suất âm thanh tính theo đơn vị oát (W)

Thông thường máy bay phản lực có công suất âm thanh là 10.000W; ô tô vận tải phóng nhanh: 0.12W; nói chuyện bình thường: 0.0003W

4 Cường độ âm thanh: Cường độ âm thanh I là công suất âm thanh đi qua một đơn vị

diện tích là 1cm2

Ba đại lượng: áp suất âm thanh, công suất âm thanh; cường độ âm thanh gắn liền với nhau Cả ba đều biểu thị độ lớn nhỏ của âm thanh Âm thanh có năng lượng càng lớn thì công suất, cường độ và áp suất của âm thanh càng lớn

5 Ðộ mạnh (Intensity): Do biên độ dao động của vật thể quyết định Biên độ dao động

là trị số lớn nhất mà dao động đạt tới trong một nửa chu kì Biên độ dao động càng lớn,

âm thanh càng vang to và ngược lại Ðơn vị đo độ mạnh của âm thanh là décibel (viết tắt

là dB) Trong lời nói của một người, độ mạnh của âm thanh là yếu tố cơ bản tạo nên âm lượng của âm và trọng âm của từ

6 Ðộ dài (Length): Do thời gian dao động của vật thể quyết định Ðộ dài của âm thanh

tạo nên sự tương phản giữa các bộ phận của lời nói, là yếu tố tạo nên trọng âm, tạo nên các nguyên âm đối lập nhau về độ dài Hai từ "tang" và "tăng" trong tiếng Việt có sự đối lập âm a dài (trong "tang") và âm a ngắn (trong "tăng")

7 Âm sắc (Timbre): Phụ thuộc vào độ cao, độ dài và độ mạnh tham gia bổ sung vào các

thành phần kết cấu của âm Ðây là vẻ riêng biệt của một âm Âm sắc được quyết định bởi: thể chất của vật thể dao động, tính chất phức hợp do hiện tượng cộng hưởng âm thanh và phương pháp làm cho vật thể dao động Một âm có cùng độ cao, độ mạnh, độ dài được phát ra từ dây tơ sẽ khác với từ một dây đồng; từ một ống sáo to dài, sẽ khác với

từ một ống sáo nhỏ, ngắn; từ việc gẩy sẽ khác với từ việc gõ, búng, cọ xát hoặc thổi

Trang 20

Âm sắc chính là cái sắc thái riêng của từng âm Âm sắc còn được quyết định bởi vật thể dao động theo chu kì đều đặn hay không đều đặn; dao động theo chu kì đều đặn thì tạo ra

âm vang (sonants), chu kì không đều đặn thì tạo ra âm ồn hay âm có nhiều tiếng động (non - sonants hoặc bruyants)

Xử lý âm thanh bao gồm nhiều lĩnh vực khác nhau, và tất cả đều liên quan đến sự hiện diện của âm thanh đối với người nghe Chúng bao gồm: (1) Tái tạo lại âm nhạc với

độ trung thực cao (high fidelity music) như là âm thanh ở các đĩa Compact (CD – audio compact discs); (2) Viễn thông thoại hoặc là các mạng điện thoại; (3) tổng hợp thoại (synthetic speech) mà ở đó các máy tính tạo và nhận dạng các mẫu thoại của con người

Các lĩnh vực cụ thể liên quan đến xử lý âm thanh (trong đó có thoại) bao gồm: Nén âm thanh, thoại, nhận dạng tiếng nói; tổng hợp tiếng nói; nâng cao chất lượng (enhancement) và hồi phục tiếng nói (restoration)

Nén các tín hiệu thoại có rất nhiều ứng dụng, ví dụ như trong công nghệ thông tin

di động số có nhiều người sử dụng dùng chung băng tần số Nói cách khác, kỹ thuật nén cho phép nhiều người sử dụng chia sẻ tài nguyên của hệ thống hơn và làm cho việc sử dụng tài nguyên hệ thống có hiệu quả hơn Một ví dụ khác nữa là lưu trữ thoại số (các máy trả lời điện thoại tự động), với một dung lượng bộ nhớ cho trước, nén cho phép lưu nhiều bản tin dài hơn

Để có thể xử lý âm thanh/thoại cần hiểu rõ được các cơ sở của quá trình tạo ra tiếng nói và đặc trưng hệ thống thính giác con người

2.1.2 Các đặc điểm của hệ thống thính giác con người

2.1.2.1 Cấu trúc tai người

Hệ thống thính giác của con người - Tai người là một cơ quan cực kỳ phức tạp Hình 2.1 minh họa những kết cấu chính của tai người Tai ngoài (outer ear) gồm có hai phần, vành tai – lớp da và sụn, gắn vào phía cạnh bên của đầu và ống tai có đường kính 0.5cm và cắm sâu vào trong đầu khoảng chừng 3cm Cơ cấu tai ngoài này dẫn hướng âm thanh từ môi trường bên ngoài tới các cơ quan nhạy cảm là tai giữa và tai trong nằm an toàn ở trong hộp sọ của người Cuối ống tai là một màng mỏng được gọi là màng nhĩ

(tympanic membrane) hay còn gọi là trống tai (ear drum) Các sóng âm thanh đập vào

màng nhĩ và làm cho nó rung động

Tai giữa là một tập hợp các xương nhỏ có nhiệm vụ truyền những rung động của

màng nhi tới ốc tai (cochlea) hay còn gọi là tai trong (inner ear), mà ở đó những rung

động được biến đổi thành các xung thần kinh (neural impulses) Tai trong là một ống nhỏ

có chứa dung dịch chất lỏng, có đường kính khoảng 2 mm và dài khoảng 3 cm Mặc dầu được minh họa ở dạng duỗi thẳng ở hình 2.1, trên thực tế, tai trong được cuộn lại và trông

Trang 21

giống như một vỏ ốc sên nhỏ Nói cách khác, từ ốc tai (cochlea) xuất phát từ tiếng Hy lạp

có nghĩa là ốc sên (snail) – hình 2.2

Khi một sóng âm thử truyền qua môi trường không khí vào môi trường chất lỏng, chỉ có một phần nhỏ của âm thanh được phát đi qua lớp giao tiếp giữa hai môi trường, trong khi đó phần năng lượng còn lại bị phản xạ trở lại Điều này là do không khí có trở kháng cơ học thấp (áp suất âm thanh thấp và vận tốc cao dẫn đến tỷ trọng thấp và hệ số nén cao), trong khi đó chất lỏng có trở kháng cơ học cao Xét về khía cạnh mang ít tính

kỹ thuật, người ta phải nỗ lực nhiều hơn khi vẫy tay trong nước so với khi vẫy tay trong không khí Chính sự khác nhau về trở kháng cơ học dẫn đến phần lớn các sóng âm bị phản xạ trở lại tại giao tiếp không khí/chất lỏng

Tai giữa được xem như là một mạng phối hợp trở kháng để gia tăng phần năng lượng sóng âm đi vào dung dịch chất lỏng của tai trong Chẳng hạn, cá không có trống tai hoặc tai giữa bởi vì chúng không cần phải nghe trong môi trường không khí Phần lớn những biến đổi trở kháng xuất phát từ sự khác nhau trong vùng phạm vi giữa trống tai

(màng nhĩ) (thu nhận sóng âm từ không khí) và cửa sổ oval (oval window) – phát dẫn âm

thành vào trong dung dịch chất lỏng Màng nhĩ có diện tích khoảng chừng 60 mm2, trong khi đó cửa sổ ovalcó diện tích khoảng chừng 4 mm2.Vì áp suất bằng lực đẩy chia cho diện tích, chính sự khác nhau về diện tích này làm tăng áp suất sóng âm thanh khoảng 15 lần

Cùng với ốc tai là màng nền (basilar membrance), cấu trúc hỗ trợ cho khoảng 12,000 tế bào cảm giác (giác quan) – sensory cells và hình thành nên dây thần kinh ốc tai (cochlear nerve) Màng nền cứng nhất ở gần cửa sổ oval, và trở nên linh hoạt dần hơn về phía đối diện, nó hoạt động như là một bộ phân tích phổ tần số (frequency spectrum analyzer) Khi gặp một tín hiệu tần số cao, màng nền cộng hưởng khi nó ở trạng thái cứng, dẫn đến sự kích thích của các tế bào thần kinh ở gần cửa sổ oval Tương tự như vậy, các âm tần số thấp kích thích các tế bào thần kinh ở phía đầu xa của màng nền Điều này làm cho các sợi riêng biệt trong thần kinh ốc tai đáp ứng lại với các tần số riêng biệt

Tổ chức tuân theo nguyên lý vị trí (place principle) và được dành riêng cho các đường

dẫn âm tới bộ não

Hình 2.1: Sơ đồ chức năng của tai người

Trang 22

1 Ống tai 2 Trống tai 3-5 Xương

tai giữa

6 Cửa sổ oval

7 Ống thông xuống mũi

8 Ốc tai 9 Thần

kinh âm thanh

Hình 2.2: Cấu tạo của tai người 2.1.2.2 Sự cảm thụ của tai người đối với âm thanh

Tai người rất nhạy cảm âm thanh Chúng ta có thể nghe những sóng âm kéo dài chỉ vài ms (mili giây) trong khi đôi mắt thì ngược lại Mắt người không cảm nhận được những thay đổi về mức độ ánh sáng trong một vài ms Kết quả là trong quá trình truyền thông tin đa phương tiện, nếu có thay đổi trong một vài ms thì ảnh hưởng của chất lượng

âm thanh lớn hơn hình ảnh

1 Ngưỡng nghe

Tai người phát hiện những âm thanh biến đổi cục bộ trong áp suất không khí được

đo bằng mức áp suất âm- SPL (Sound Pressure Level) Nếu như những biến đổi của mức

áp suất âm (SPL) là dưới một ngưỡng nào đó về biên độ thì tai người không thể phát hiện được Ngưỡng nghe này được minh họa trong hình 2.3 dưới đây Ngưỡng này là một hàm của tần số âm thanh Lưu ý là trong hình 2.3 này, có các thành phần tần số thấp ở dưới mức ngưỡng nên các âm thanh có tần số này sẽ không nghe được Tai người nhạy nhất trong phạm vi tần số từ 2 – 4KHz

Trang 23

Hình 2.3: Ngưỡng nghe

2 Mặt nạ tần số (frequency masking)

Cho dù một thành phần tín hiệu cao hơn mức ngưỡng nghe, thì nó vẫn có thể bị che khuất bởi các thành phần lớn hơn mà gần tín hiệu đó trong miền tần số Hiện tượng này là gọi là mặt nạ tần số Mỗi một thành phần trong một tín hiệu có thể lấy ra “phần bóng” qua các thành phần bên cạnh Nếu như thành phần tần số bên cạnh bị che phủ bởi “phần bóng” này thì các thành phần tín hiệu tần số này sẽ không nghe được Kết quả là có một thành phần – thành phần che khuất làm dịch ngưỡng nghe Hình 2.4 minh họa hiện tượng này

Hình 2.4: Mặt nạ tần số

Trang 24

3 Mặt nạ thời gian

Chỉ khi các tiếng đưa ra vùng các “bóng” lên những thành phần bên cạnh trong miền tần số, thì âm lượng tăng đột biến có thể che khuất âm thanh nhỏ hơn, gần với âm thanh che khuất về mặt thời gian Ở đây, những âm thanh xuất hiện cả trước lẫn sau khi tăng âm lượng có thể bị che khuất Hình 2.5 minh họa hiện tượng mặt nạ thời gian điển hình Lưu ý là khoảng mặt nạ phía trước ngắn hơn rất nhiều so với khoảng mặt nạ sau

Hình 2.5: Mặt nạ thời gian

4 Các dải băng tần tới hạn

Dải tần số nghe được của con người được phân chia tự nhiên thành các dải băng tần tới hạn, với đặc tính là hệ thống thính giác của con người không thể phân biệt được các âm trong cùng một băng và diễn ra đồng thời Băng thông của mỗi băng tần tới hạn là khoảng 100Hz trong dải tần dưới 500Hz, và tăng tuyến tính trong dải 500 đến 5000Hz Thông thường, dải tần số âm thanh có thể được phân chia thành 24 băng tới hạn (25 băng thường được sử dụng cho các ứng dụng mã hóa), như biểu diễn ở Bảng 2.1 dưới đây

Do đó, tai hoạt động giống như các bộ lọc thông dải, mỗi bộ lọc cho phép một dải tần số nhất định đi qua và khóa tất cả các tần số khác (hình 2.6) Nói cách khác, hệ thống thính giác có thể được mô hình như một băng lọc, gồm 25 bộ lọc thông dải chồng lấn nhau, trong dải tần từ 0 đến 20kHz Các thí nghiệm dựa trên quan sát chỉ ra rằng một âm thanh có âm lượng không đổi sẽ có vẻ to hơn nếu nó kéo dài ranh giới giữa hai dải tần tới hạn thay vì chỉ nằm trong một dải tần Trong thực tế, tai người không có khả năng biết phân biệt trong cùng một dải tần tới hạn do sự che tần số

Dải tần #

Tần số giới hạn dưới (Hz)

Tần số trung tâm (Hz)

Tần số giới hạn trên (Hz)

Trang 25

Việc chuyển đổi giữa tần số f với số dải tần tới hạn tương ứng b được thể hiện qua đơn vị

Bark như sau:

(2.3)3)

Trang 26

Theo đơn vị đo tần số mới này, số dải tần tới hạn b tương đương với 5 khi f = 500 Hz

Trong thực tế, các đặc điểm ngưỡng nghe, mặt nạ tần số, mặt nạ thời gian và các dải băng tần giới hạn đặc trưng cho mô hình tâm sinh lý nghe (Psychoacoustics) Người

ta đã lợi dụng các đặc điểm trên để nén thông tin âm thanh (Audio) mà ứng dụng phổ biến nhất trong các chuẩn nén âm thanh MPEG

2.2 Mã hóa tín hiệu thoại

2.2.1 Quá trình tạo ra tiếng nói

Tiếng nói là âm thanh mang mục đích diễn đạt thông tin, rất uyển chuyển và đặc biệt Là công cụ của tư duy và trí tuệ, tiếng nói mang tính đặc trưng của loài người Nhờ

có ngôn ngữ tiếng nói mà loài người sống thành xã hội tiến bộ, có văn hoá, văn minh như ngày nay Trong quá trình giao tiếp người nói có nhiều câu nói Mỗi câu gồm nhiều từ, ở tiếng Việt, số từ thường được sử dụng vào khoảng 6700 âm tiết

Tiếng nói thường xuất hiện dưới nhiều hình thức mà ta gọi là đàm thoại, việc đàm thoại thể hiện kinh nghiệm của con người Đàm thoại là một quá trình gồm nhiều người,

có sự hiểu biết chung và một nghi thức luân phiên nhau nói Những người có điều kiện thể chất và tinh thần bình thường thì rất dễ diễn đạt tiếng nói của mình, do đó tiếng nói là phương tiện giao tiếp chính trong lúc đàm thoại Tiếng nói có rất nhiều yếu tố khác hỗ trợ nhằm giúp người nghe hiểu được ý cần diễn đạt như biểu hiện trên gương mặt, cử chỉ, điệu bộ Vì có đặc tính tác động qua lại, nên tiếng nói được sử dụng trong nhu cầu giao tiếp nhanh chóng

Sóng âm thoại là một sóng áp suất âm thanh được tạo ra từ những chuyển động có điều khiển của các bộ phận cơ thể con người hình thành nên hệ thống tạo âm thoại

Một cấu trúc đơn giản của hệ thống tạo âm thoại được minh họa ở hình vẽ 2.7 Cơ bản, thoại được tạo ra như là một sóng âm từ các hốc mũi và miệng khi không khí bị bật

ra từ các lá phổi với kết quả là luồng không khí bị xáo trộn bởi sự co thắt ở bên trong cơ thể con người Sẽ rất là hữu ích khi thể hiện quá trình tạo âm thoại ở dạng bộ lọc âm thanh Có ba hốc quan trọng trong hệ thống tạo âm thoại là hốc mũi, miệng và hầu để hình thành nên một bộ lọc âm thanh Bộ lọc được kích thích bởi không khí từ các lá phổi

và gánh tải tại đầu ra chính của nó bởi trở kháng bức xạ gắn kết với môi

Cuống họng (vocal tract) liên quan tới hầu và các hốc miệng được nhóm lại với nhau Cuống khứu giác (nasal tract) bắt đầu tại vòm miệng và kết thúc tại các hốc mũi Khi vòm miệng thấp xuống, cuống khứu giác được ghép nối về mặt âm thanh với cuống họng để hình thành nên các âm thoại giọng mũi

Sự hình thành và khuôn dạng của cuống họng, cuống khứu giác thay đổi liên tục theo thời gian để tạo ra một bộ lọc âm thanh với đáp ứng tần số biến đổi theo thời gian

Trang 27

Khi mà không khí từ các lá phổi chuyển động qua các cuống họng, khứu giác, phổ tần số được định dạng bởi sự lựa chọn tần số của những cuống họng và khứu giác này

Hình 2.7: Bộ phận phát âm của con người

Thoại được tạo ra khi không khí đi từ phổi, qua các dây thanh âm (bộ phận phát ra tiếng của thanh quản) và dọc theo cuống họng Cuống họng bắt đầu từ vị trí mở các dây thanh âm cho tới miệng với chiều dài trung bình khoảng 16cm Dây thanh âm của người

có cấu trúc gồm hai sợi cơ, mỗi sợi cơ được giữ bởi một màng cơ – một khối cơ đủ mạnh

Bình thường hai dây cơ khép lại, không khí từ buồng phổi bị đóng kín không ra được Khi phổi đầy khí, dưới sự điều khiển của hệ dây thần kinh, khi cần nói, không khí

ép vào cơ cấu dây thanh âm, hai dây thanh âm có thể mở ra hoặc không mở

Khi các dây thanh âm mở, không khí được đẩy ra từ phổi từng lớp một theo một

chu kỳ nhất định T 0tạo ra các nguyên âm

Nếu các dây thanh âm không mở, nó sẽ bị tách bật ra để không khí có thể lọt qua tạo ra các phụ âm nổ hoặc không khí có thể lách xuyên qua khe hẹp giữa hai dây để tạo ra các phụ âm xát - rít

Chúng ta có thể xem cơ quan phát âm như là một bộ lọc với nhiều tần số cộng hưởng khác nhau và được gọi là những tần số formant hoặc đơn giản là formant Các tần

Trang 28

số formant được điều khiển bởi việc thay đổi hình dạng của cuống họng, chẳng hạn thông qua sự chuyển động của lưỡi

Formant là dải tần số được tăng cường do hiện tượng cộng hưởng trong ống dẫn thanh, đặc trưng cho âm sắc của mỗi nguyên âm Trong mỗi dải tần như thế có một tần số được tăng cường hơn cả gọi là đỉnh formant Một nguyên âm do một người phát ra có nhiều formant:

• F1: ứng với cộng hưởng vùng yết hầu

• F2: ứng với cộng hưởng khoang miệng

Khi ta nói, các âm mũi sẽ có sự xuất hiện của formant F3, các formant khác F4, F5,…liên quan đến các đặc trưng giọng nói riêng của mỗi cá nhân Mỗi lần môi, lưỡi, hàm ở những vị trí khác nhau là một lần hộp cộng hưởng miệng và yết hầu thay đổi hình dáng, thể tích, lối thoát của không khí làm biến đổi âm sắc của âm thanh đi qua chúng Chính vì vậy, hai khoang miệng và yết hầu là hai hộp cộng hưởng quan trọng nhất, chúng tạo nên hai formant chính formant F1 và F2 đặc trưng của mỗi nguyên âm

Bộ lọc cuống họng bị kích thích bởi luồng không khí tác động vào nó từ các dây thanh âm Theo đó các âm thanh thoại phát ra được phân chia thành ba loại phụ thuộc vào phương thức kích thích

• Các âm hữu thanh (voiced sound): được tạo ra khi các dây thanh âm rung động mở hoặc đóng, do vậy mà làm gián đoạn (ngắt) luồng không khí được tạo ra từ phổi tới cuống họng và tạo ra các các xung không khí có chu kỳ (quasi-periodic) khi bị kích thích Tốc độ của việc đóng hoặc mở các dây thanh âm xác định độ cao thấp của âm thanh (pitch) Pitch có thể được điều chỉnh qua việc thay đổi hình dạng, độ căng của các dây thanh âm cũng như áp suất của luồng không khí tác động lên

chúng từ phổi -> nguyên âm Các âm hữu thanh thường có tính chu kỳ cao, điển

hình trong khoảng 2 đến 20 ms như được minh họa ở hình 2.8 của một đoạn âm hữu thanh lấy mẫu tại tần số 8KHz Hàm mật độ phổ công suất – PSD (Power Spectral Density) của đoạn âm hữu thanh này được minh họa ở hình 2.9

• Các âm vô thanh (unvoiced sound): được tạo ra khi kích thích là một nhiễu loạn từ việc ép luồng không khí ở tốc độ cao qua khe hẹp ở cuống họng trong khi các dây

thanh âm ở trạng thái mở Lưu ý âm vô thanh là các tín hiệu không có chu kỳ, nó

có thể ở dạng tạp âm, nhiễu… Tính chu kỳ của những âm vô thanh cũng được thể hiện ở các hình vẽ 2.10 và 2.11

• Các âm bật - nổ (plosive sound): được tạo ra khi có sự đóng hoàn toàn ở cuống

họng, và áp suất không khí được hình thành ở phía sau được giải phóng đột

ngột.-> phụ âm

Trang 29

Hình 2.8: Một đoạn điển hình của các âm hữu thanh

Hình 2.9: Mật độ phổ công suất cho đoạn thoại hữu thanh

Trang 30

Hình 2.10: Một đoạn điển hình của các âm vô thanh

Hình 2.11: Mật độ phổ công suất cho đoạn thoại vô thanh

Một số âm thanh không được xem như thuộc vào một trong ba loại âm thanh nói trên, tuy nhiên chúng là sự hỗn hợp Ví dụ như các âm xát (phụ âm xát hoặc rít – cọ xát) được hình thành khi các có sự rung động của dây thanh âm và khe hẹp trong cuống họng được hình thành

Dựa vào phương thức cấu âm, người ta chia phụ âm làm 3 loại chính: âm tắc, xát

và rung Phụ âm tiếng Việt gồm có 22 âm và người ta có thể chia theo bảng sau:

Trang 31

Bảng 2.1: Các loại phụ âm trong tiếng Việt

Mặc dầu rất nhiều âm thanh thoại có thể được tạo ra, nhưng hình dạng của cuống họng và phương thức kích thích lên nó thay đổi tương đối chậm Do vậy, thoại - tiếng nói

có thể xem như là quá trình dừng (quasi-stationary) qua những chu kỳ thời gian ngắn (khoảng chừng 20ms) Trên cơ sở các hình vẽ (2.8 – 2.11), chúng ta có thể thấy được các tín hiệu thoại có tính dự đoán trước cao do những sự rung động có tính chu kỳ của các dây thanh âm và do những sự cộng hưởng âm trong cuống họng Các bộ mã hóa thoại đang cố gắng khai thác những đặc tính dự đoán trước này của tín hiệu thoại để giảm tốc

độ truyền dẫn thoại ở mức cần thiết cho đảm bảo chất lượng truyền dẫn thoại

2.2.2 Tổng quan về mã hóa tín hiệu thoại

Từ những năm 1930, mã hoá tiếng nói được phát triển trở thành một đặc tính quan trọng của những nhà vận hành hệ thống điện thoại ngày ngày Sự mã hóa tiếng nói bây giờ được ứng dụng trong truyền thông tế bào, những hệ thống máy tính, tự động hóa, truyền thông quân sự, những hệ thống sinh địa, và ở khắp nơi mà thông tin số chiếm giữ

Mã hoá tiếng nói bao gồm lấy mẫu và lượng tử hóa biên độ tín hiệu tiếng nói Mục tiêu là sẽ sử dụng một cực tiểu số lượng mẫu, trong khi giữ gìn chất lượng tiếng nói được xây dựng lại tại phía thu Nghiên cứu mã hoá bây giờ tập trung vào các kỹ thuật tốc

độ thấp (8 tới 2.4 kbits/s) và tốc độ rất thấp (ở dưới 2.4 kbits/s)

Hình 2.12 minh họa sơ đồ khối một hệ thống mã tiếng nói Ở đây, tín hiệu thoại tương tự và liên tục theo thời gian từ một nguồn thoại đã cho (chưa nén) được số hóa thông qua bộ lọc (loại bỏ băng tần thừa ở tần số cao), bộ lấy mẫu (biến đổi thành tín hiệu rời rạc theo thời gian) và bộ biến đổi tương tự/số (lượng tử hóa) và sau đó được mã hoá (nén): đó là quá trình mã hoá nguồn Tín hiệu đã mã hoá nguồn sau đó được tiếp tục mã hoá để thêm khả năng chống lỗi (mã hoá kênh) và độ ưu tiên để truyền dẫn qua một kênh

Trang 32

Tại đầu thu, một bộ giải mã kênh sẽ tách và (hoặc) sửa những lỗi trong quá trình truyền dẫn và một bộ giải mã nguồn sẽ giải nén tín hiệu Tín hiệu đã được giải nén có thể giống hệt như tín hiệu ban đầu (nén không tổn thất) hoặc nó cũng có thể bị méo hoặc suy biến

theo một vài cách nào đó (nén có tổn thất)

Hình 2.12: Sơ đồ khối hệ thống mã hóa thoại

Thông thường, đa số những hệ thống mã tiếng nói được thiết kế để hỗ trợ những ứng dụng viễn thông, với tần số giới hạn trong khoảng 300 - 3400Hz Theo định lý Nyquist, tần số lấy mẫu phải lớn hơn ít nhất là hai lần băng thông của tín hiệu liên tục để tránh méo, nên 8 kHz thường được chọn là tần số mẫu tiêu chuẩn (cho) tiếng nói Nếu sử dụng từ mã 8 bít/ mẫu thì tốc độ đầu ra của kênh thoại số sẽ là 64 Kbit/s

Như ta đã biết, tín hiệu số ưu điểm hơn hẳn so với tín hiệu tương tự trong việc truyền dẫn và xử lý tín hiệu nhất là khả năng chống lỗi đường truyền PCM là kỹ thuật điều chế xung mã được sử dụng rất phổ biến trong mạng thoại truyền thống để biến đổi tín hiệu tương tự thành tín hiệu số Bình thường, một kênh thoại tương tự được biến đổi thành một kênh PCM cơ sở có tốc độ 64 Kbit/s Kỹ thuật PCM (chuẩn G.711) sử dụng trong mạng thoại truyền thống đảm bảo chất lượng âm khá trung thực nhưng băng tần sử dụng còn khá lớn Cho nên, nén thoại là cần thiết cho các ứng dụng như điện thoại di động (tốc độ của một cuộc gọi càng thấp thì càng cung cấp được thêm các dịch vụ khác-

dữ liệu; hình ảnh; video) và và các ứng dụng cho phép truyền dữ liệu tốc độ thấp (thường thấp hơn <16 Kbit/s) Ngoài ra, nén thoại cũng cần thiết cho các ứng dụng như truyền thoại qua IP (VoIP), thoại hội nghị… để giảm băng thông sử dụng trên mạng Internet

Một kỹ thuật nén khác cũng thường được sử dụng là điều chế xung mã vi sai thích ứng (ADPCM) theo chuẩn G.726 ITU-T ADPCM chỉ sử dụng các mẫu 4 bit để mã hóa (tạo ra băng thông 32 Kbit/s) Khác với PCM, 4 bit không phải do trực tiếp mã hóa biên

Bộ lọc Bộ lấy

mẫu

Bộ biến đổi A/D

Bộ mã hóa nguồn Bộ mã

hóa kênh

Nguồn

thoại

Kênh truyền

Trang 33

độ xung lấy mẫu mà là mã hóa sự khác nhau giữa biên độ các xung, cũng như tốc độ thay đổi các biên độ đó sử dụng phương pháp dự đoán tuyến tính trước

Vấn đề đặt ra là giảm băng thông hơn nữa mà vẫn đảm bảo chất lượng dịch vụ để phù hợp với mạng VoIP, từ đó xuất hiện một số kỹ thuật mã hóa và nén tín hiệu thoại tốc

độ thấp cụ thể như trong GSM: G.723.1, G.729 PCM và ADPCM đều là kỹ thuật mã hóa theo dạng sóng Kỹ thuật nén mới (mã hóa nguồn) được phát triển cách đây 10 đến 15 năm dựa vào sự nhận biết các đặc tính nguồn của tín hiệu thoại phát ra Kỹ thuật này sử dụng thủ tục xử lý tín hiệu và nén thoại bằng việc chỉ gửi đi thông tin ở dạng các tham số

đã được đơn giản hóa về việc kích thích tín hiệu nguồn dạng của giọng nói do vậy đòi hỏi

ít băng thông hơn

2.2.3 Các phương pháp mã hóa tín hiệu thoại

Nhiệm vụ phân loại các bộ mã hóa thoại hiện đại là không đơn giản và thường không rõ ràng do sự phân chia thiếu rõ rệt giữa các cách tiếp cận khác nhau Mục này giới thiệu một số tiêu chuẩn phân loại hiện có Lưu ý rằng đây là lĩnh vực tiến triển liên tục và nhiều loại bộ mã hóa mới sẽ được tạo ra khi có những công nghệ thay thế được giới thiệu

Phân loại theo tốc độ

Tất cả các bộ mã hóa được thiết kế để giảm tốc độ bit từ 64-128 Kbps xuống các giá trị thấp hơn Căn cứ theo tốc độ của luồng bit được mã hóa, việc phân loại các bộ mã hóa thoại theo bảng 2.2 dưới đây

Bảng 2.2: Phân loại các bộ mã hóa thoại theo tốc độ

Môt bộ mã hóa thoại được cho là làm việc tốt tại một tốc độ bit nhất định (tùy theo phương pháp mã hóa) nhưng chất lượng của bộ giải mã thoại sẽ bị ảnh suy giảm nhanh nếu

nó giảm xuống quá mức dưới mức độ giới hạn cho phép Tốc độ bit thấp nhất mà các bộ

mã hóa thoại có thể đạt được bị giới hạn bởi nội dung thông tin của tín hiệu thoại Các bộ

mã hóa hiện tại có thể hoạt động với chất lượng tốt ở tốc độ 2 Kbps hay cao hơn, đây cũng

là những cơ hội mới cho những nghiên cứu cải tiến trong tương lai

Trang 34

Phân loại theo kỹ thuật mã hóa

a Mã hóa dạng sóng

Mã hóa dạng sóng (waveform coding) là kỹ thuật duy trì hình dạng ban đầu của các sóng tín hiệu, và do vậy các bộ mã hóa dạng sóng có thể áp dụng cho bất kỳ loại nguồn tín hiệu nào Nguyên lý của bộ mã hóa dạng sóng là mã hóa dạng sóng của tiếng nói Tại phía phát, bộ mã hóa sẽ nhận các tín hiệu tiếng nói tương tự liên tục và mã hoá thành tín hiệu số trước khi phát đi Tại phía thu, bộ giải mã sẽ làm nhiệm vụ ngược lại để khôi phục tín hiệu tiếng nói Khi không có lỗi truyền dẫn thì dạng sóng của tiếng nói khôi phục được sẽ rất giống với dạng sóng của tiếng nói gốc

Những bộ mã hóa dạng sóng khá phù hợp với kỹ thuật mã hóa tốc độ cao vì chất lượng của chúng giảm rất nhanh khi giảm tốc độ bit Trong thực tế, các bộ mã hóa dạng sóng hoạt động có hiệu quả ở tốc độ 32kbps hay cao hơn Tỷ số tín hiệu trên nhiễu – SNR (Signal-to-noise ratio) thường được sử dụng để đánh giá chất lượng của các bộ mã hóa dạng mã sóng Một số ví dụ liên quan là những bộ mã hóa PCM và ADPCM

b Mã hóa tham số

Mã hóa tham số (parametric coding) hay còn gọi là Vocoder Ở đây, các tín hiệu thoại được giả thiết được tạo ra từ một mô hình (giống như mô hình tạo tiếng nói từ cơ quan phát âm của con người), mô hình này được điều khiển bởi một vài tham số chức năng Trong quá trình mã hóa, những tham số của mô hình được suy ra (ước đoán) từ tín hiệu thoại đầu vào Kiểu mã hóa này không bảo toàn hình dạng sóng ban đầu của tín hiệu nên không thể dùng tỷ số tín hiệu trên nhiễu SNR để đánh giá Chất lượng nhận thức (cảm nhận) của tín hiệu thoại sau khi giải mã liên quan trực tiếp đến độ chính xác của mô hình

Do hạn chế này, bộ mã hóa tham số có hiệu năng thấp đối với các tín hiệu không phải là tín hiệu thoại

Có một số mô hình đề xuất cho bộ mã hóa tham số và thành công nhất là mô hình

dự đoán tuyến tính Theo cách tiếp cận này, cơ chế tạo ra tiếng nói của con người được thực hiện bằng việc sử dụng bộ lọc biến đổi theo thời gian với các tham số của bộ lọc được xây dựng dựa trên thủ tục phân tích dự đoán tuyến tính

Bộ mã hóa tham số làm việc rất tốt với tốc độ bit thấp từ 2 đến 5 Kbps và ví dụ điển hình của các bộ mã hóa tham số là bộ mã hóa dự đoán tuyến tính LPC (Linear Prediction Coding) và bộ mã hóa dự đoán tuyến tính kích thích hỗn hợp MELP (Mixed Excitation Linear Prediction)

c Mã hóa lai

Trang 35

Mã hóa lai (hybrid coding) hay còn gọi là mã hóa tổng hợp là sự kết hợp của hai loại mã hóa nói trên Giống như mã hóa tham số, mã hóa lai dựa vào một mô hình tạo ra tiếng nói và trong quá trình mã hóa, các tham số của mô hình sẽ được xác định Thêm vào đó, các tham số của mô hình được tối ưu theo cách mà tín hiệu thoại được giải mã gần giống nhất có thể được với dạng sóng tín hiệu ban đầu

Các bộ mã hóa lai được dùng chủ yếu cho tốc độ bit ở mức trung bình với chất lượng khá tốt với thuật toán dự đoán tuyến tính kích thích mã – CELP (Code-Excited Linear Prediction)

Hình vẽ 2.13 dưới đây minh họa chất lượng thoại của cả ba loại bộ mã hóa phổ biến thay đổi theo tốc độ mã hóa như thế nào

Hình 2.13: Chất lượng thoại so với tốc độ bit của các loại bộ mã hóa

2.2.3.1 Mã hóa dạng sóng

Mã hóa dạng sóng hoạt động trong miền thời gian hoặc miền tần số, phương pháp này khai thác các đặc tính của dạng sóng tín hiệu nguồn (hình bao phổ/hài/độ cao thấp của âm) thông qua các phương pháp tương quan ngắn hạn, ví dụ như: bằng phương pháp

dự đoán tuyến tính – cố gắng dự đoán các mẫu dạng sóng từ giá trị của các mẫu trước đó

Có rất nhiều kiểu mã hóa dạng sóng Một số phương pháp thực hiện việc phân tích tín hiệu thoại đầu vào trong miền tần số trong khi các phương pháp khác thực hiện việc phân tích trong miền thời gian Mã hóa dạng sóng là tương đối đơn giản, phương pháp này lợi dụng được rất ít độ dư thừa vốn có trong tiếng nói của con người do đó nó không có nhiều hiệu quả trong việc giảm tốc độ dữ liệu trên kênh truyền vô tuyến Trên thực tế

Trang 36

phương pháp này chỉ cho phép dữ liệu tốc độ cao nhưng nó lại cung cấp thoại với chất lượng tốt và có thể chịu được tạp âm nền Thậm chí nhiều phương pháp mã hóa dạng sóng có thể mã hóa cả âm nhạc và những âm thanh khác không phải là tiếng nói của con người Phương pháp này hoạt động độc lập với cách mà tín hiệu được tạo ra và cố gắng xây dựng lại tín hiệu gần giống với tín hiệu gốc ban đầu

Mã hóa dạng sóng không phức tạp lắm và nói chung là sử dụng tốc độ bit tương đối cao (trên 16 Kbps) PCM tuyến tính (64 Kbps) biểu thị loại mã hóa dạng sóng đơn giản nhất, phương pháp này chỉ đơn thuần bao gồm việc lấy mẫu và lượng tử hoá, mã hóa sóng đầu vào ADPCM (tốc độ 32 Kbps, tiêu chuẩn CCITT/ITU G.721) được sử dụng trong một số hệ thống truy nhập vô tuyến (DECT và PHS) là một thuật toán mã hóa phức tạp hơn nhưng vẫn cung cấp tốc độ bit tương đối cao Tốc độ của phương pháp ADPCM

có thể tùy biến từ 16, 24, 32 cho đến 40 Kbps (CCITT/ITU G.726/727)

Trong việc mã thoại người ta thấy rằng với việc lượng tử hoá phi tuyến, 8 bit mã hóa cho một xung mẫu là đủ đảm bảo chất lượng thoại và gần như khó mà phân biệt được so với thoại gốc ban đầu Điều này dẫn đến tốc độ bit chuẩn là 64 Kbit/s và hai loại

bộ mã hóa phi tuyến PCM đã trở thành tiêu chuẩn vào những năm 60 của thế kỷ 20

Ở Bắc Mỹ, người ta dùng mã hóa theo luật µ, trong khi đó ở Châu Âu, mã hóa

theo luật A được áp dụng Do tính đơn giản, chất lượng thoại đảm bảo và độ trễ thấp, cả

hai loại mã hóa PCM này vẫn được sử dụng rộng rãi cho đến ngày nay

Một kỹ thuật được sử dụng phổ biến trong việc mã thoại là cố gắng dự đoán giá trị của mẫu tiếp theo từ những mẫu trước đó Điều này có thể khả thi bởi có sự tương quan hiện tại giữa những mẫu thoại dưới tác dụng của cơ quan phát âm và sự rung động của dây thanh âm như đã được giới thiệu ở 2.2.1

Nếu dự đoán có hiệu quả, thì tín hiệu sai lệch giữa những mẫu đã dự đoán và những mẫu thoại thực sẽ có một sự khác biệt thấp hơn so với giữa các mẫu thoại nguyên gốc Bởi vậy, chúng ta có thể lượng tử hoá những tín hiệu sai lệch này với một số lượng bit ít hơn so với tín hiệu mẫu thoại gốc Đây là cơ sở của những mô hình điều chế xung

mã vi sai – DPCM (Differential Pulse Code Modulation)- chúng lượng tử hoá sự khác biệt giữa những tín hiệu gốc và tín hiệu dự đoán

Trang 37

Kết quả từ những bộ mã hoá như vậy có thể được cải thiện nếu bộ dự đoán và bộ lượng tử có sự tương thích sao cho chúng thay đổi phù hợp với các đặc tính của thoại được mã hoá Điều này dẫn tới kỹ thuật điều chế xung mã vi sai thích ứng – ADPCM (Adaptive Differential Pulse Code Modulation) Vào giữa những năm 1980, CCITT đã chuẩn hoá bộ mã hóa ADPCM hoạt động ở tốc độ 32Kbps với chất lượng thoại tương đương với phương pháp điều chế mã xung 64Kbps Sau đó, các bộ mã hóa ADPCM hoạt động ở các tốc độ 16, 24 và 40Kbps cũng đã được chuẩn hóa Sơ đồ bộ mã hóa và giải

mã ADPCM được minh họa ở hình 2.14 dưới đây

Hình 2.14: Bộ mã hóa và giải mã ADPCM

b Mã hóa ADPCM (ITUG.721, G.726, G.727)

Bộ mã hóa điều chế xung mã vi sai thích nghi (ADPCM) là bộ mã hóa dạng sóng thay vì lượng tử hoá trực tiếp tín hiệu thoại, giống như phương pháp PCM, nó lượng tử hóa sự khác nhau giữa tín hiệu thoại và tín hiệu dự đoán

Nếu sự dự đoán là chính xác thì sự khác nhau giữa các mẫu thật và mẫu dự đoán

sẽ nhỏ hơn, ít khác biệt hơn so với giữa các mẫu thoại thực, và sự khác biệt này nếu được lượng tử hoá chính xác thì sẽ cần số bit ít hơn so với việc phải lượng tử hoá các mẫu thoại gốc

Tại bộ giải mã, tín hiệu khác biệt mà đã được lượng tử hóa được cộng với tín hiệu

dự đoán để khôi phục lại tín hiệu thoại ban đầu Hiệu năng của bộ mã hóa được cải thiện thông qua việc sử dụng bộ dự đoán và lượng tử thích nghi sao cho bộ dự đoán và bộ lượng tử phải thích ứng với những đặc tính thay đổi của thoại đang được mã hoá

Trang 38

Vào giữa những năm 1980, CCITT đã chuẩn hoá ADPCM 32Kbps được biết đến với cái tên G721, cho phép khôi phục thoại tốt như phương pháp PCM 64 Kbps Các khuyến nghị sau đó: các bộ mã hóa G726 và G727 hoạt động ở các tốc độ 40, 32, 24 và

16 Kbps cũng đã được chuẩn hoá

Các bộ mã hóa dạng sóng được mô tả ở trên đều mã hóa thoại hoàn toàn trong miền thời gian Tuy nhiên, các tiếp cận theo miền tần số cũng có thể thực hiện được và có một số ưu điểm Ví dụ như ở trong mã hóa băng con - SBC (Sub – Band Coding), tín hiệu thoại đầu vào được phân chia thành một số dải băng tần thoại gọi là các băng con thông qua các bộ lọc số và sau đó mỗi một băng con được mã hóa độc lập bằng việc sử dụng các bộ mã hóa như ADPCM Ở đây, các băng con tương ứng với phổ tần số thấp chứa hầu hết năng lượng của tín hiệu thoại sẽ được cấp phát với số bit mã hóa lớn, còn các băng con tương ứng với các phổ tần số cao, chứa ít năng lượng tín hiệu sẽ được mã hóa với số bit nhỏ hơn Kết quả là tổng số bit dùng cho mã hóa băng con sẽ ít hơn so với trường hợp mã hóa trên toàn dải phổ của tín hiệu Tại phía thu, các tín hiệu băng con được giải mã và kết hợp lại để khôi phục lại tín hiệu thoại ban đầu (G 722 1988)

Ưu điểm của mã hóa băng con là nhiễu trong mỗi băng con chỉ phụ thuộc vào mã hóa sử dụng trong băng con đó Bởi vậy chúng ta có thể cấp phát nhiều bit hơn cho các băng con quan trọng sao cho nhiễu trong những vùng tần số này là thấp, trong khi đó ở các băng con khác, chúng ta có thể cho phép có nhiễu mã hóa cao vì nhiễu ở những tần

số này có tầm quan trọng thấp hơn Các mô hình cấp phát bit thích ứng có thể được sử dụng để khai thác thêm ý tưởng này Các bộ mã hóa băng con cho chất lượng thoại tốt trong phạm vi tốc độ từ 16 – 32 Kbps Do phải cần đến bộ lọc để tách tín hiệu thoại trong các băng con nên mã hóa băng con phức tạp hơn bộ mã hóa DPCM thông thường và có thêm độ trễ mã hóa Tuy nhiên, độ phức tạp và độ trễ là tương đối thấp so với các bộ mã hóa lai

2.2.3.2 Mã hóa tham số

Mã hóa ADPCM không thể cho chất lượng tốt nếu tốc độ bit giảm dưới 16 Kbps

Để tiếp tục giảm tốc độ bit, cần phải khai thác mô hình tạo tiếng nói Từ đây, người ta có khái niệm mã hóa tham số hoặc còn gọi là mã hóa dựa trên mô hình

Ở đây, các bộ mã hóa tham số hoạt động sử dụng mô hình nguồn tín hiệu được tạo ra như thế nào và cố gắng trích chọn ra từ tín hiệu đang được mã hóa các tham số của

mô hình và truyền chúng tới bộ giải mã Các bộ mã hóa tham số cho tín hiệu thoại còn được gọi là Vocoder (Voice + Coder)

Ưu điểm của loại mã hóa này là nó rất có hiệu quả đối với âm thanh thoại, dễ hiểu, trong khi nó lại có nhược điểm là phức tạp hơn nhiều so với phương pháp mã hóa dạng sóng và nó chỉ có thể xử lý được tiếng nói của con người Mã hóa tham số hoạt động với

Trang 39

tốc độ bit thấp (xuống đến 2,4 Kbps) và mặc dù là tiếng nói được tái tạo lại là hoàn toàn

dễ hiểu nhưng chúng lại khác khá nhiều so với giọng nói tự nhiên của con người

a Mô hình LPC

Mô hình toán học của mã hóa dự đoán tuyến tính được minh họa ở hình vẽ dưới đây:

Hình 2.15: Mô hình toán học của LPC

Ở đây tín hiệu thoại số là đầu ra của bộ lọc số - bộ lọc LPC có đầu vào là dãy các xung hoặc chuỗi nhiễu trắng Nói cách khác, cuống họng được đặc trưng bởi bộ lọc biến đổi theo thời gian và bị kích thích với những nguồn nhiễu trắng khác cho phân đoạn thoại

vô thanh hoặc một dãy các xung phân tách theo chu kỳ âm thanh cho các âm hữu thanh

Do vậy thông tin phải được gửi đến bộ giải mã là các tham số đặc trưng cho bộ lọc; âm vô thanh/hữu thanh; những thay đổi cần thiết của tín hiệu kích thích, chu kỳ âm thanh Quá trình này được cập nhật liên tục 10–20 ms theo bản chất không dừng (non-stationary) của tín hiệu thoại

Các tham số của mô hình có thể được xác định bởi bộ mã hóa theo một số cách khác nhau sử dụng các kỹ thuật trong miền thời gian hoặc tần số Đồng thời các thông tin

có thể được mã hóa để truyền dẫn theo những cách khác nhau

Mối quan hệ giữa mô hình toán học và mô hình vật lý – cơ quan phát âm thoại của con người được mô tả dưới đây:

Cuống họng H(z) (Bộ lọc LPC) Không khí u(n)

Dao động của dây thanh âm V (Các âm hữu thanh) Chu kỳ dao động của dây thanh âm T (Độ cao âm thanh)

Các âm vô thanh UV (Vô thanh)

Trang 40

Lượng không khí G (Độ tăng ích)

Hàm truyền đạt của bộ lọc được xác định theo biểu thức (2.4)

Cho nên 160 giá trị của S được đại diện tương ứng bới 13 giá trị của A Ngoài ra,

cần phân biệt hai quá trình:

• Tổng hợp LPC (LPC Synthesis): Cho A, tạo S

Phân tích LPC (LPC Analysis): Cho S, tìm A tốt nhất

b LPC Vocoder 2,4Kbps

LPC Vocoder 2,4Kbps có sơ đồ khối chức năng được mô tả theo hình vẽ 2.16 dưới đây Bộ mã hóa thoại này hoạt động với tốc độ khoảng 2,4 Kbps hoặc thấp hơn và tạo ra thoại có âm thanh dễ hiểu nhưng không trung thực so với bản chất tự nhiên của thoại con người LPC Vocoder chủ yếu được áp dụng trong lĩnh vự quân sự, ở đó các âm thanh tự nhiên của thoại không quan trọng bằng tốc độ bit chậm cho phép bảo vệ và mã hóa điện thoại an toàn

Ngày đăng: 27/06/2014, 15:20

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Stephen J. Solari, Digital Video and Audio Compression, McGraw-Hill, 1997 Sách, tạp chí
Tiêu đề: Digital Video and Audio Compression
[2] Steven W. Smith, The Scientist and Engineer’s Guide to Digital Signal Processing, Elsevier Science, 2003 Sách, tạp chí
Tiêu đề: The Scientist and Engineer’s Guide to Digital Signal Processing
[3] Wai C. Chu, Speech Coding Algorithms- Foundation and Evolution of Standardized Coders, John Wiley &amp; Sons, 2003 Sách, tạp chí
Tiêu đề: Speech Coding Algorithms- Foundation and Evolution of Standardized Coders
[4] David Lindbergh, Multimedia Communications: Directions and Innovations, Academic Press, 2001 Sách, tạp chí
Tiêu đề: Multimedia Communications: Directions and Innovations
[5] R. C. Gonzalez, R. E. Woods , Digital Image Processing, Prentice Hall, 2nd Edition, 2001 Sách, tạp chí
Tiêu đề: Digital Image Processing
[6] Iain E. G. Richardson, H.264 and MPEG-4 Video Compression: Video Coding for Next-generation Multimedia, John Wiley &amp; Sons Ltd, 2003 Sách, tạp chí
Tiêu đề: H.264 and MPEG-4 Video Compression: Video Coding for Next-generation Multimedia
[7] Andrew S. Tanenbaum, “Computer Networks”, Prentice Hall, Inc., 2003 Sách, tạp chí
Tiêu đề: Computer Networks
[8] Đỗ Hoàng Tiến, Vũ Đức Lý, Truyền hình số, Nhà Xuất bản Khoa học và Kỹ thuật, 2001 Sách, tạp chí
Tiêu đề: Truy"ề"n hình s
Nhà XB: Nhà Xuất bản Khoa học và Kỹ thuật
[9] Yiteng, Jacob Benesty, Audio Signal Processing for Next Generation Multimedia Communication Systems, Kluwer Academic Publisher, 2004 Sách, tạp chí
Tiêu đề: Jacob Benesty, Audio Signal Processing for Next Generation Multimedia Communication Systems
[10] J.R. Parker, Algorithms for Image and Video Processing, Wiley,1996 Sách, tạp chí
Tiêu đề: Algorithms for Image and Video Processing
[11] Alan C. Bovic, Handbook of Image and Video Proceesing, Academic Press, 2000 [12] Rafael C. Gonzalez,Richard E. Wood, Steven L.Eddins, Digital Image Processing Using MALAB, Prentice Hall, 2003 Sách, tạp chí
Tiêu đề: Handbook of Image and Video Proceesing", Academic Press, 2000 [12] Rafael C. Gonzalez,Richard E. Wood, Steven L.Eddins, "Digital Image Processing Using MALAB
[13] Nguyễn Quốc Trung, Xử lý tín hiệu và lọc số, Nhà xuất bản Khoa học và Kỹ thuật, 1998 Sách, tạp chí
Tiêu đề: X"ử" lý tín hi"ệ"u và l"ọ"c s
Nhà XB: Nhà xuất bản Khoa học và Kỹ thuật
[14] Lương Mạnh Bá, Nguyễn Thanh Thủy, Nhập môn xử lý ảnh số, Nhà xuất bản Khoa học và Kỹ thuật, 1999 Sách, tạp chí
Tiêu đề: Nh"ậ"p môn x"ử" lý "ả"nh s
Nhà XB: Nhà xuất bản Khoa học và Kỹ thuật

HÌNH ẢNH LIÊN QUAN

Hình 1.1:  Tín hiệu âm thanh - BÀI GIẢNG XỬ LÝ ÂM THANH VÀ HÌNH ẢNH docx
Hình 1.1 Tín hiệu âm thanh (Trang 7)
Hình 2.2: Cấu tạo của tai người  2.1.2.2. Sự cảm thụ của tai người đối với âm thanh - BÀI GIẢNG XỬ LÝ ÂM THANH VÀ HÌNH ẢNH docx
Hình 2.2 Cấu tạo của tai người 2.1.2.2. Sự cảm thụ của tai người đối với âm thanh (Trang 22)
Hình 2.7: Bộ phận phát âm của con người - BÀI GIẢNG XỬ LÝ ÂM THANH VÀ HÌNH ẢNH docx
Hình 2.7 Bộ phận phát âm của con người (Trang 27)
Hình 2.8: Một đoạn điển hình của các âm hữu thanh - BÀI GIẢNG XỬ LÝ ÂM THANH VÀ HÌNH ẢNH docx
Hình 2.8 Một đoạn điển hình của các âm hữu thanh (Trang 29)
Hình 2.10: Một đoạn điển hình của các âm vô thanh - BÀI GIẢNG XỬ LÝ ÂM THANH VÀ HÌNH ẢNH docx
Hình 2.10 Một đoạn điển hình của các âm vô thanh (Trang 30)
Bảng 2.1: Các loại phụ âm trong tiếng Việt - BÀI GIẢNG XỬ LÝ ÂM THANH VÀ HÌNH ẢNH docx
Bảng 2.1 Các loại phụ âm trong tiếng Việt (Trang 31)
Hình 2.14: Bộ mã hóa và giải mã ADPCM  b. Mã hóa ADPCM (ITUG.721, G.726, G.727) - BÀI GIẢNG XỬ LÝ ÂM THANH VÀ HÌNH ẢNH docx
Hình 2.14 Bộ mã hóa và giải mã ADPCM b. Mã hóa ADPCM (ITUG.721, G.726, G.727) (Trang 37)
Hình 2.17: Cấu trúc bộ mã hóa và giải mã lai AbS - BÀI GIẢNG XỬ LÝ ÂM THANH VÀ HÌNH ẢNH docx
Hình 2.17 Cấu trúc bộ mã hóa và giải mã lai AbS (Trang 42)
Hình 2.18: (a) Một tín hiệu âm thanh hình sin; (b) Lấy mẫu; (c) Lượng tử hóa - BÀI GIẢNG XỬ LÝ ÂM THANH VÀ HÌNH ẢNH docx
Hình 2.18 (a) Một tín hiệu âm thanh hình sin; (b) Lấy mẫu; (c) Lượng tử hóa (Trang 44)
Hình 3.3:  Hình ảnh bệnh nhân dùng tia Gamma - BÀI GIẢNG XỬ LÝ ÂM THANH VÀ HÌNH ẢNH docx
Hình 3.3 Hình ảnh bệnh nhân dùng tia Gamma (Trang 51)
Hình 3.5: Xử lý ảnh bằng tia cực tím - BÀI GIẢNG XỬ LÝ ÂM THANH VÀ HÌNH ẢNH docx
Hình 3.5 Xử lý ảnh bằng tia cực tím (Trang 52)
Hình 3.6: Xử lý ảnh trong băng hồng ngoại  Xử lý ảnh trong băng vi ba - BÀI GIẢNG XỬ LÝ ÂM THANH VÀ HÌNH ẢNH docx
Hình 3.6 Xử lý ảnh trong băng hồng ngoại Xử lý ảnh trong băng vi ba (Trang 53)
Hình 3.7: Ảnh Radar một vùng núi Tây Tạng  Xử lý ảnh trong băng radio - BÀI GIẢNG XỬ LÝ ÂM THANH VÀ HÌNH ẢNH docx
Hình 3.7 Ảnh Radar một vùng núi Tây Tạng Xử lý ảnh trong băng radio (Trang 54)
Hình 3.13: Hình ảnh có độ phân giải màu sắc cao và - BÀI GIẢNG XỬ LÝ ÂM THANH VÀ HÌNH ẢNH docx
Hình 3.13 Hình ảnh có độ phân giải màu sắc cao và (Trang 60)
Hình 3.16: Các mầu cơ bản  Mô hình cộng màu RGB - BÀI GIẢNG XỬ LÝ ÂM THANH VÀ HÌNH ẢNH docx
Hình 3.16 Các mầu cơ bản Mô hình cộng màu RGB (Trang 63)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w