KHÁI NIỆM CHUNG VỀ MÃ HÓA TIẾNG NÓI

Mã hoá là quá trình biến đổi các giá trị rời rạc thành các mã tƣơng ứng. Mã hóa tín hiệu tiếng nói (gọi tắt là mã hóa tiếng nói), còn đƣợc biết đến là mã hóa tín hiệu thoại, đƣợc biết đến từ rất sớm. Ngay từ những năm 1930, mã hóa tín hiệu tiếng nói đã đƣợc nhiều nhà nghiên cứu và vận hành hệ thống liên lạc điện thoại quan tâm. Sự bùng nổ về các thuật toán mã hóa tín hiệu thoại phải kể đến khi có sự phát triển mạnh của hệ thống thông tin di động và sau đó là sự tích hợp dịch vụ đa phƣơng tiện. Không chỉ có một vai trò quan trọng trong các mạng thông tin dân dụng, mã hóa tiếng nói cũng đƣợc ứng dụng và có mặt ở trong hầu hết các hệ thống thông tin số cả dân sự và quân sự.

Mục tiêu của việc mã hóa tiếng nói là nhằm giảm nhỏ lƣợng dữ liệu biểu diễn thông tin tiếng nói cần lƣu trữ hoặc truyền tải mà không làm giảm chất lƣợng cảm thụ của tiếng nói khôi phục đƣợc sau mã hóa. Nói một cách khác, mã hóa tiếng nói là quá trình tìm kiếm biểu diễn số nhỏ gọn nhất có thể của tín hiệu tiếng nói mà vẫn không làm mất hoặc làm mất đi thông tin (méo) ít nhất có thể. Về cơ bản thì mã hóa tín hiệu tiếng nói cũng giống với mã hóa dữ liệu thông thƣờng. Tuy nhiên, với đặc trƣng của tín hiệu tiếng nói, bao gồm cả đặc trƣng của quá trình tạo và cảm nhận tiếng nói của con ngƣời, mã hóa tiếng nói sẽ có nhiều điểm khác biệt và cũng cần những cách tiếp cận riêng biệt để có thể khai thác tốt các đặc trƣng.

Hình 3.1 Sơ đồ tổng quan hệ thống mã hóa tiếng nói

Nhìn chung, mã hóa tín hiệu tiếng nói (hay gọi tắt là mã hóa tiếng nói) liên quan đến quá trình xử lý số tín hiệu tiếng nói trong đó có việc lấy mẫu và lƣợng tử hóa. Nói một cách khác, quá trình mã hóa tiếng nói liên quan trƣớc hết tới quá trình biến đổi các tín hiệu tiếng nói liên tục thành các tín hiệu tiếng nói rời rạc cả về thời gian (lấy mẫu) và

chuẩn hóa về biên độ (lƣợng tử hóa). Với tín hiệu tiếng nói, từ đặc trƣng nghe của tai con ngƣời trong đó nhạy với vùng tín hiệu tiếng nói ở tần số 0.3-3.4kHz, do đó trong các hệ thống thông tin thoại ngƣời ta thƣờng chỉ quan tâm đến khoảng tín hiệu này. Từ đó, theo định lý lấy mẫu Shannon/Nyquist, tần số lấy mẫu với tín hiệu tiếng nói tối thiểu là 8kHz. Sơ đồ khối tổng quan của hệ thống mã hóa tiếng nói đƣợc minh họa trong hình 3.1.

Tín hiệu tiếng nói tƣơng tự đƣợc thực hiện tiền xử lý: lọc hạn biên (Anti-aliasing filter), tiền nhấn, khuếch đại, … Sau đó đƣợc thực hiện việc số hóa (lấy mẫu và lƣợng tử hóa). Ở một dạng thức đơn giản nhất, việc thực hiện số hóa này có thể coi là một quá trình mã hóa. Tuy nhiên, để đạt đƣợc các hiệu quả mã hóa tốt hơn, một loạt các quá trình phân tích khác sẽ đƣợc áp dụng trên tín hiệu tiếng nói số thu đƣợc. Quá trình giải mã nhằm tái tạo tín hiệu tiếng nói thực hiện các thao tác ngƣợc lại với quá trình mã hóa. Cũng cần chú ý rằng trong quá trình mã hóa, có một khâu mà không thể thực hiện chính xác quá trình ngƣợc lại, đó chính là quá trình lƣợng tử hóa.

Nhƣ đã đề cập, có rất nhiều cách tiếp cận bài toán mã hóa tiếng nói. Kết quả là có rất nhiều phƣơng pháp mã hóa. Việc phân loại các phƣơng pháp mã hóa do đó không hề đơn giản. Tùy vào cách nhìn nhận về vấn để, hay tùy vào sự quan tâm trong quá trình mã hóa, ngƣời ta có nhiều cách phân loại.

Nếu dựa trên cách tiếp cận và miền tiếp cận tín hiệu chúng ta có: (1) mã hóa trực tiếp dạng sóng miền thời gian, (2) mã hóa dạng sóng miền tần số. Mã hóa trực tiếp dạng sóng (waveform coding) là kỹ thuật mã hóa khai thác đặc trƣng về hình dạng sóng tín hiệu trực tiếp trong miền thời gian. Đây là một cách tiếp cận phổ dụng và có thể áp dụng cho bất cứ loại tín hiệu nào chứ không riêng gì cho tín hiệu tiếng nói. Các phƣơng thức mã hóa phổ biến thuộc lớp này nhƣ PCM, DPCM, …Đây là phƣơng pháp mã hóa không hiệu quả nếu xét về mặt nén dữ liệu. Tuy nhiên, chất lƣợng theo nghĩa độ trung thực khi khôi phục tín hiệu mã hóa của các phƣơng pháp này khá cao. Khác với lớp mã hóa trực tiếp dạng sóng, mã hóa dạng sóng trong miền tần số thực hiện việc mã hóa tín hiệu dựa trên các đặc trƣng phổ của tín hiệu. Phƣơng thức mã hóa này còn đƣợc gọi là mã hóa chuyển đổi (transform coding).

Nếu phân loại theo tốc độ mã hóa, chúng ta có: (1) mã hóa tốc độ cao, (2) mã hóa tốc độ trung bình, (3) mã hóa tốc độ thấp, (4) mã hóa tốc độ rất thấp. Xu hƣớng phát triển hiện nay của các phƣơng pháp mã hóa tiếng nói là các phƣơng pháp tiếp cận mã hóa tốc độ rất thấp, khoảng 2.4kbps hoặc thấp hơn.

Ngoài ra, ngƣời ta cũng thƣờng phân loại các phƣơng pháp mã hóa dựa trên phƣơng thức tiếp cận. Với cách phân loại này, chúng ta có: (1) mã hóa trực tiếp dạng sóng, (2) mã hóa dựa trên tham số tín hiệu tiếng nói, (3) phƣơng pháp mã hóa lai ghép. Khác với mã hóa trực tiếp dạng sóng, phƣơng thức mã hóa mà chúng ta đã biết trong phần trên, phƣơng pháp mã hóa dựa trên tham số tín hiệu (gọi tắt là mã hóa tham số) sử dụng

nguyên lý của mô hình nguồn-bộ lọc mô tả bộ máy phát âm. Phƣơng thức mã hóa lai ghép thực hiện việc kết hợp giữa phƣơng pháp mã hóa trực tiếp dạng sóng và phƣơng thức mã hóa tham số để có thể kết hợp đƣợc ƣu điểm của các phƣơng thức mã hóa thành phần nhằm đạt đƣợc hiệu quả mã hóa tốt nhất. So sánh chất lƣợng về khía cạnh chất lƣợng tiếng nói tái tạo sau mã hóa của ba phƣơng pháp mã hóa trên đƣợc minh họa trong hình 3.2.

Hình 3.2 So sánh chất lƣợng thoại và tốc độ mã hóa của ba phƣơng pháp mã hóa Trong các phần tiếp theo, chúng ta sẽ tìm hiểu về các phƣơng pháp mã hóa theo cách phân loại này.

Biểu diễn phổ tín hiệu tiếng nói

CÂU HỎI VÀ BÀI TẬP CUỐI CHƢƠNG