Nghiên cứu phương pháp nén tiếng nói tốc độ bít thấp bằng kỹ thuật phân rã tiếng nói theo thời gian

ĐẠI HỌC THÁI NGUYÊNTRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VŨ THANH HUẾ NGHIÊN CỨU PHƯƠNG PHÁP NÉN TIẾNG NÓI TỐC ĐỘ BÍT THẤP BẰNG KỸ THUẬT PHÂN RÃ TIẾNG NÓI THEO THỜI GIAN LUẬ

Trang 1

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

VŨ THANH HUẾ

NGHIÊN CỨU PHƯƠNG PHÁP NÉN TIẾNG NÓI TỐC

ĐỘ BÍT THẤP BẰNG KỸ THUẬT PHÂN RÃ TIẾNG

NÓI THEO THỜI GIAN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN - 2015

Trang 2

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

Vũ Thanh Huế

NGHIÊN CỨU PHƯƠNG PHÁP NÉN TIẾNG NÓI TỐC

ĐỘ BÍT THẤP BẰNG KỸ THUẬT PHÂN RÃ TIẾNG

NÓI THEO THỜI GIAN

Ngành : Công nghệ thông tin

Chuyên ngành : Khoa học máy tính

Mã số : 60.48.01.01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: TS Phùng Trung Nghĩa

Thái Nguyên, năm 2015

Trang 3

LỜI CAM ĐOAN

Tên tôi là: Vũ Thanh Huế

Các nội dung trong luận văn đúng như nội dung trong đề cương và yêucầu của thầy giáo hướng dẫn Tất cả tài liệu tham khảo đều có nguồn gốc,xuất xứ rõ ràng Nếu sai tôi hoàn toàn chịu trách nhiệm trước hội đồng khoahọc và trước pháp luật

Tác giả luận văn

Trang 4

LỜI CẢM ƠN

Sau một thời gian nghiên cứu và làm việc nghiêm túc, được sự độngviên, giúp đỡ và hướng dẫn tận tình của Thầy giáo hướng dẫn Tiến sĩ Phùng

Trung Nghia, với đề tài luận văn “Nghiên cứu phương pháp nén tiếng nói tốc

độ bit thấp bằng kỹ thuật phân rã tiếng nói theo thời gian” đã hoàn thành.

Em xin bày tỏ lòng biết ơn sâu sắc đến:

Thầy giáo hướng dẫn Tiến sĩ Phùng Trung Nghĩa đã tận tình chỉ d ẫn,giúp đỡ em hoàn thành luận văn này

Bộ phận sau Đại học Trường Đại học công nghệ thông tin và truyềnthông đã giúp đỡ em trong quá trình học tập cũng như thực hiện luận văn

Em xin chân thành cảm ơn bạn bè, đồng nghiệp và gia đình đã độngviên, khích lệ, tạo điều kiện giúp đỡ em trong suốt quá trình học tập, thực hiện

và hoàn thành luận văn này

Em xin chân thành cảm ơn!

Thái Nguyên, ngày tháng năm 2015

Học viên

Vũ Thanh Huế

Trang 5

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN vi

MỤC LỤC vii

LỜI MỞ ĐẦU……… 1

1 Lý do chọn đề tài 1

2 Mục tiêu của đề tài 2

3 Đối tượng và phạm vi nghiên cứu 2

4 Phương pháp nghiên cứu 3

5 Ý nghĩa khoa học và thực tiễn 3

CHƯƠNG 1: TỔNG QUAN VỀ MÃ HÓA TIẾNG NÓI 4

1.1 Thông tin và tín hiệu tiếng nói 4

1.2 Quá trình tạo tiếng nói 5

1.3 Khả năng cảm thụ tiếng nói của con người 9

1.4 Mô hình hóa tiếng nói 13

1.5 Mã hóa tiếng nói 16

1.6 Kỹ thuật phân rã tiếng nói theo thời gian TD và ứng dụng trong mã hóa tiếng nói 20

CHƯƠNG 2: PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT PHÂN RÃ TIẾNG NÓI THEO THỜI GIAN 23

2.1 Phương pháp của Atal 23

2.2 Phương pháp phân rã tiếng nói theo thời gian giới hạn RTD 26

2.3 Phương pháp MRTD 29

2.4 Mã hóa tiếng nói với TD kết hợp sử dụng STRAIGHT 34

2.4.1 Sơ lược về phương pháp mã hóa TD-STRAIGHT 34

2.4.2 Tính tham số phổ đường LSF từ phổ STRAIGHT 36

2.4.3 Lượng tử hóa vector LSF 37

2.4.4 Lượng tử hóa vector sự kiện 37

Trang 6

2.4.5 Lượng tử hóa hàm sự kiện 37

2.4.6 Lượng tử hóa tham số tần số cơ bản F0 38

2.4.7 Lượng tử hóa tham số độ lợi 38

2.4.8 Lượng tử hóa tham số nhiễu 38

CHƯƠNG 3 ĐÁNH GIÁ THỰC NGHIỆM PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI MRTD VỚI CƠ SỞ DỮ LIỆU TIẾNG VIỆT 40

3.1 Ngữ âm tiếng Việt 40

3.2 Cơ sở dữ liệu tiếng nói tiếng Việt 42

3.3 Cài đặt các phương pháp mã hóa tiếng nói dùng MRTD trên MATLAB.44 3.4 Tiêu chí đánh giá khách quan và chủ quan .46

3.5 Kết quả khách quan và chủ quan các phương pháp ……….49

3.6 Đánh giá các kết quả 51

KẾT LUẬN 52

TÀI LIỆU THAM KHẢO 53

Trang 7

DANH MỤC CÁC TỪ VIẾT TẮT

LPC Linear Predictive Coding Mã hóa dự đoán tuyến tính

CELP Code-Excited Linear Prediction

MRTD Modiﬁed Restricted Temporal

Trang 8

DANH MỤC CÁC BẢNG

Bảng 3.1 Cấu trúc âm tiết tiếng Việt 42

Bảng 3.2 Sáu thanh điệu tiếng Việt 42

Bảng 3.3 Thang điểm Scheffe 47

Bảng 3.4 Thang điểm PESQ 49

Trang 9

DANH MỤC CÁC HÌNH VẼ, SƠ ĐỒ

Hình 1.1 Dạng sóng tiếng nói một câu tiếng Việt 4

Hình 1.2 Tiếng nói hữu thanh 5

Hình 1.3 Bộ phận cung cấp làn hơi 5

Hình 1.4 Dây thanh âm 6

Hình 1.5 Cấu trúc cơ quan phát âm 7

Hình 1.6 Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm 8

Hình 1.7 Mô hình hóa cơ quan phát âm 8

Hình 1.8 Mô hình hóa cơ quan phát âm đầy đủ bằng máy tính 9

Hình 1.9 Cơ quan thính giác con người 9

Hình 1.10 Mô hình điểm cực formant cơ quan phát âm 14

Hình 1.11 Mô hình kích thích âm hữu thanh 15

Hình 1.12 Mô hình kích thích nguồn âm 16

Hình 1.13 Phương pháp mã hóa tiếng nói PCM 17

Hình 1.14 Phân tích một mẫu tiếng nói bằng TD 21

Hình 2.1 Ví dụ về hai hàm sự kiện liền kề sử dụng mô hình phân rã bậc hai .27

Hình 2.2 Hàm sự kiện có tính chất “hình học chuẩn” và “hình học không chuẩn”.29 Hình 2.3 Thuật toán chuẩn hóa vector sự kiện 33

Hình 2.4 Hình vẽ các hàm sự kiện nhận được khi MRTD phân tích một câu tiếng Nhật, chỉ số trên miền thời gian là số khung 34

Hình 2.5 Phương pháp mã hóa/giải mã tiếng nói dùng TD-STRAIGHT 36

Hình 3.1 Đường F0 sáu thanh điệu tiếng Việt 41

Hình 3.2 Thuật toán mã hóa và đánh giá chất lượng tiếng nói mã hóa bằng MRTD 45

Hình 3.3 Mô hình hóa người nghe trong PESQ 48

Hình 3.4 Tích hợp phân tích khả năng cảm thụ con người để tính điểm chất lượng tiếng nói nhân tạo 48

Trang 10

Hình 3.5 Kết quả đánh giá chủ quan bằng phương pháp của Scheffe với tỉ lệ nén đầu vào là 20 50 Hình 3.6 Kết quả đánh giá chủ quan bằng phương pháp của Scheffe với tỉ lệ nén đầu vào là 30 50 Hình 3.7 Hình ảnh dạng sóng tiếng nói có nén, không nén với tỉ lệ nén là 20 .51

Trang 11

MỞ ĐẦU

1 Lý do chọn đề tài

Tiếng nói là phương tiện giao tiếp cơ bản của con người Vì vậy tiếngnói cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ thốngviễn thông Để truyền tiếng nói trong mạng viễn thông, tiếng nói cần phảiđược số hóa Phương pháp mã hóa cơ bản theo dạng xung (Pulse CodeModulation - PCM) cho tốc độ bit của tiếng nói đã số hóa là 64 Kbps giốngtốc độ bit của một kênh thông tin số cơ bản chưa ghép kênh [1] Với sự bùng

nổ về thông tin trong các mạng viễn thông hiện đại, việc sử dụng phươngpháp mã hóa PCM với tốc độ cơ bản 64 Kbps là tiêu tốn lãng phí nguồn tàinguyên, hạn chế dung lượng thông tin trên một kênh truyền vật lí Chính vìvậy, rất nhiều nhà nghiên cứu trên thế giới đã tập trung vào vấn đề mã hóatiếng nói để đảm bảo tiếng nói được mã hóa có tốc độ bit thấp, có thể dễ dàngtăng số kênh truyền logic trên một kênh truyền vật lí, trong khi vẫn phải đảmbảo các yêu cầu về chất lượng [2-7] Các phương pháp mã hóa tiếng nói phổbiến được biết đến là mã hóa dự đoán tuyến tính LPC [2], mã hóa thích nghiADPCM [3], Mặc dù các phương pháp mã hóa này là tin cậy và đã đượctiêu chuẩn hóa và sử dụng rộng rãi trong các hệ thống viễn thông Hiệu quảnén của các phương pháp mã hóa phổ biến này vẫn chưa đảm bảo trong điềukiện tài nguyên hạn chế như các hệ thống thông tin vệ tinh hay di động

Kỹ thuật phân rã tiếng nói theo thời gian (Temporal Decomposition TD) là một kỹ thuật phân tích tiếng nói được đề xuất bởi Atal năm 1983 [4].Các kết quả nghiên cứu cho thấy TD rất thích hợp để phân tích mô hình hóatiếng nói cũng như mã hóa nén tiếng nói Tuy nhiên thuật toán TD của Atal có

-độ phức tạp tính toán cao, không phù hợp với việc mã hóa tiếng nói thời gianthực Vì vậy, một số nhà nghiên cứu đã cải tiến thuật toán TD của Atal theo

Trang 12

hướng giảm độ phức tạp tính toán, ứng dụng trong mã hóa tiếng nói tốc độ bitthấp thời gian thực [5, 6, 7] Hướng nghiên cứu này vẫn được tiếp tục pháttriển trong những năm gần đây [8].

Luận văn này nghiên cứu về phương pháp mã hóa tiếng nói tốc độ bitthấp thời gian thực dùng kỹ thuật TD, phân tích lý thuyết, cài đặt thực nghiệm

và đánh giá hiệu quả của phương pháp mã hóa tiếng nói dùng kỹ thuật TD cảitiến giới hạn MRTD với tiếng nói tiếng Việt, từ đó đưa ra các khuyến nghịcho việc phát triển hệ thống mã hóa tiếng nói tốc độ bit thấp thời gian thựcdùng kỹ thuật TD phù hợp cho tiếng Việt

2 Mục tiêu của đề tài

Hướng nghiên cứu mã hóa tiếng nói tốc độ bit thấp dùng kỹ thuật phân

rã tiếng nói theo thời gian TD hiện vẫn được tiếp tục phát triển trong nhữngnăm gần đây [8] nhưng ở Việt Nam, hướng nghiên cứu này còn khá mới mẻ.Luận văn này nghiên cứu về phương pháp mã hóa tiếng nói tốc độ bitthấp thời gian thực dùng kỹ thuật TD bao gồm:

- Thuật toán TD nguyên thủy của Atal,

- Thuật toán cải tiến MRTD của N.P Chiến,

Phân tích lý thuyết, cài đặt thực nghiệm với cơ sở dữ liệu tiếng Việt vàđánh giá hiệu quả của phương pháp MRTD của N.P Chien, từ đó đưa ra cáckhuyến nghị cho việc phát triển hệ thống mã hóa tiếng nói tốc độ bit thấp thờigian thực dùng kỹ thuật TD cho phù hợp với tiếng nói tiếng Việt

3 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu của luận văn là các phương pháp mã hóa nén tiếngnói tốc độ bit thấp thời gian thực dùng kỹ thuật TD Đây là đối tượng nghiêncứu được nhiều nhà nghiên cứu trên thế giới quan tâm trong thời gian gần đây

Trang 13

Phạm vi của luận văn bao gồm nghiên cứu tổng quan về mã hóa nén tiếngnói [1-3], một số phương pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực[2-8], đặc biệt tập trung vào kỹ thuật mã hóa nén tiếng nói dùng TD [4-8].Luận văn cũng nghiên cứu cài đặt thực nghiệm các phương pháp mã hóadùng MRTD và đánh giá với cơ sở dữ liệu tiếng Việt để đưa ra các khuyếnnghị.

4 Phương pháp nghiên cứu

Phương pháp nghiên cứu của luận văn là nghiên cứu các lý thuyết đã cótrên thế giới [1-8] để phân tích, đánh giá về các kỹ thuật mã hóa tiếng nói tốc

độ bit thấp

Dựa trên các cơ sở lý thuyết và các phân tích, đánh giá, luận văn cũng sẽnghiên cứu thực nghiệm phương pháp mã hóa tiếng nói tốc độ bit thấp thờigian thực dùng kỹ thuật phân rã tiếng nói theo thời gian MRTD Cơ sở dữ liệu

để đánh giá thực nghiệm là cơ sở dữ liệu tiếng nói tiếng Việt Môi trường đểthực nghiệm là MATLAB 7.0

5 Ý nghĩa khoa học và thực tiễn

Nghiên cứu về mã hóa tiếng nói tốc độ bit thấp có vai trò quan trọngtrong các hệ thống truyền thông hiện đại Mặc dù mục tiêu của các bộ mã hóatiếng nói là độc lập ngôn ngữ, hiệu quả của các phương pháp mã hóa tiếng nói

là khác nhau với các cơ sở dữ liệu tiếng nói khác nhau Nghiên cứu về cácphương pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật TD

và thử nghiệm đánh giá với tiếng nói tiếng Việt chưa được nghiên cứu ở ViệtNam Do vậy vấn đề nghiên cứu trong luận văn có ý nghĩa khoa học và thựctiễn

Trang 14

CHƯƠNG 1.

TỔNG QUAN VỀ MÃ HÓA TIẾNG NÓI

1.1 Thông tin và tín hiệu tiếng nói

Tiếng nói là dạng thông tin tự nhiên và phổ biến nhất đối với con người

Từ khi lịch sử con người hình thành, con người đã biết sử dụng tiếng nói làmphương tiện giao tiếp chính, trải qua hàng triệu năm trong quá trình tiến hóa

và phát triển của loài người, tiếng nói vẫn luôn giữ vai trò là phương tiện giaotiếp cơ bản nhất Do tiếng nói là phương tiện giao tiếp cơ bản của con người,

nó cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ thống viễnthông từ trước đến nay

Tín hiệu tiếng nói là loại tín hiệu âm thanh phổ biến nhất trong truyềnthông Dải tần tín hiệu tiếng nói nằm trong khoảng 300 Hz - 3400 Hz Tiếngnói bao gồm hai dạng hữu thanh và vô thanh Âm hữu thanh có đặc tính tuầnhoàn còn âm vô thanh tương tự nhiễu

Hình 1.1 Dạng sóng tiếng nói một câu tiếng Việt

Trang 15

Hình 1.2 Tiếng nói hữu thanh

1.2 Quá trình tạo tiếng nói

Bộ phận cung cấp làn hơi: Bao gồm hai lá phổi, được sự tác động của

các cơ ngực, sườn, cơ hoành cách mô, cơ bụng Làn hơi đưa lên quyết địnhcường độ của âm thanh

Hình 1.3 Bộ phận cung cấp làn hơi

Trang 16

Bộ phận phát thanh vocal cord là thanh đới (dây thanh âm) nằm trong

thanh quản:

Do áp lực của làn hơi từ phổi đưa lên, thanh đới - với những độ căngkhác nhau và hình dạng khác nhau - mở ra và đóng lại nhanh chậm khác nhau,cắt làn hơi thành những sóng âm có tần số khác nhau, tạo thành những âmthanh có cao độ khác nhau Thanh đới ở phụ nữ và trẻ em ngắn và mỏng hơn

ở đàn ông, nên giọng nữ và trẻ em cao hơn giọng đàn ông

Hình 1.4 Dây thanh âm

Bộ phận dẫn âm: Gồm chủ yếu là cuống họng (yết hầu) thông với đường

miệng hoặc đường mũi Các chấn động âm thanh do thanh đới tạo ra, được bộphận dẫn âm gom lại và dẫn ra ngoài theo hai hướng miệng hoặc mũi Cuốnghọng và miệng chủ yếu đóng vai trò truyền âm

Bộ phận phát âm: Là miệng với các hoạt động của môi, răng, lưỡi, hàm

dưới, vòm miệng Chúng ta nhận ra được lời nói, tiếng hát có nghĩa là nhờvào hoạt động của các cơ năng trên Khi nói đến khẩu hình là nói đến hình

Trang 17

thể, hình dáng, cả bên ngoài lẫn bên trong của miệng do hoạt động phối hợpcủa môi, lưỡi, hàm dưới, vòm mềm tạo ra khi phát âm Mở khẩu hình khôngđúng cách sẽ ảnh hưởng không chỉ đến chất lượng âm thanh, mà nhất là ảnhhưởng đến việc rõ lời, phát âm đúng.

Bộ phận phát âm đóng vai trò như một hộp cộng hưởng âm thanh Nhờ

sự biến đổi của bộ phận phát âm mà âm thanh được cộng hưởng, triệt tiêu ởcác tần số khác nhau dẫn tới âm thanh được phát ra nghe khác nhau

Hình 1.5 Cấu trúc cơ quan phát âm

Trang 18

Hình 1.6 Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm

Biễu diễn bộ phận phát âm: Để phân tích, tổng hợp tiếng nói cần mô

hình hóa cơ quan phát âm trên máy tính Có thể biểu diễn cơ quan phát âmbằng một mô hình gần đúng gồm các hình trụ có độ dài bằng nhau nhưng cóđường kính khác nhau Nói cách khác, cơ quan phát âm có thể được biểu diễnbằng một dãy các bộ lọc nối tiếp có hàm truyền khác nhau Trong quá trìnhphát âm người ta thấy rằng hình dáng cơ quan phát âm (do đó là đặc tuyếncủa các bộ lọc) thay đổi rất chậm, do đó trong một khoảng thời gian ngắn(trong một âm vị) có thể xem như sự thay đổi là không đáng kể, nhưng chúng

sẽ thay đổi rất lớn từ âm vị này sang âm vị khác

Hình 1.7 Mô hình hóa cơ quan phát âm

Trang 19

Hình 1.8 Mô hình hóa cơ quan phát âm đầy đủ bằng máy tính

1.3 Khả năng cảm thụ tiếng nói của con người

Tiếng nói và âm thanh nói chung được con người cảm thụ thông qua cơquan thính giác

Hình 1.9 Cơ quan thính giác con người

Trang 20

Cơ quan thính giác của con người có một số đặc điểm sau:

• Con người có thể nghe được các tần số âm thanh trong khoảng 15 Hz 20.000 Hz Âm thanh với tần số cao hơn được gọi là siêu âm, thấp hơn

Hình 1.10 Thang tần số Bark

• Thính giác có tính quán tính: Đáp ứng của thính giác với tác động của

âm thanh không phải là ngay tức thì, mà là có tính trễ, các thí nghiệm đã chokết quả với môi trừờng truyền âm bình thừờng sau khi bắt đầu khoảng 200msthính giác mới xác định âm lựợng của nó khi âm ngừng cảm nhận còn âm kéodài chừng 150-200 ms thính giác không phân biệt được hai âm giống nhau điliền nhau khoảng nhỏ hơn 50 ms, tức là có hiện tượng che lấp của âm, phải

Trang 21

qua tác động vài chu kỳ thì tai người mới “quen” với cao độ của âm (tần sốcao hay thấp).

• Hiệu ứng không gian (stereo) của tai người là hiệu ứng cảm ứng hai taivới hai nguồn âm tương quan, điều này có ảnh hưởng đến độ rõ của âm khitiến hành kiểm tra hệ thống

• Tính phi tuyến của thính giác, thính giác có mức độ cảm thụ âm nhiễukhông phải là tỉ lệ thuận với độ rộng dải tần, ảnh hưởng của nó là méo âmthanh do thêm thành phần sóng hài, không gây ra sai lệch cho người nghebằng do thêm thành tần số không bội, khi mã hoá phải chú ý đến thành phầntần số không bội

• Đặc điểm về giới tính, lứa tuổi, tâm sinh lý: tức là những yếu tố trên làkhác nhau không những âm thanh phát ra có khác nhau mà cả việc cảm thụ về

âm thanh cũng khác nhau, cho nên phải có sự kiểm tra trên diện rộng trướckhi đưa ra đánh giá

1.4 Một số tham số cơ bản của tiếng nói

Cường độ (độ to) I:

Cường độ liên quan đến năng lượng âm Đối với tai con người, giá trịtuyệt đối của cường độ âm I không quan trọng bằng giá trị tỉ đối của I so vớimột giá trị I0 nào đó chọn làm chuẩn Người ta định nghĩa mức cường độ âmL: L(B) = lg(I/I0) Đơn vị mức cường độ âm là Ben (kí hiệu: B) Mức cường

độ âm bằng 1,2,3,4 B có nghĩa là cường độ âm I lớn gấp 10, 10^2, 10^3,10^4 cường độ âm chuẩn I0 Trong thực tế người ta thường dùng đơn vị dB,bằng 1/10 ben L(dB)= 10lg(I/I0) Khi L= 1dB, thì I lớn gấp 1.26 lần I0 Đó làmức cường độ âm nhỏ nhất mà tai ta có thể phân biệt được

Cao độ (pitch):

Cao độ là độ "cao", "thấp" của âm thanh có quan hệ chặt chẽ với tần sốdao động (nhưng không phải là tương đương) Tần số dao động càng lớn thì

Trang 22

âm thanh càng "cao" và ngược lại Với âm thanh thực là tổ hợp của nhiều tần

số thì tần số dao động ở đây là tần số cơ bản F0

Dao động của sóng âm có thể được đo đạc khách quan với kết quả là tần

số Nhưng tần số này khiến não bộ của con người sắp đặt thành những tiêuchuẩn chủ quan về cao độ

Trường độ (duration):

Trong tiếng nói, đặc biệt là các ngôn ngữ châu Âu, trường độ là đặc tínhquan trọng của âm vị, âm tiết Trong âm nhạc, trường độ là độ dài của nốtnhạc Trường độ là một trong những nền tảng của nhịp điệu, đặc biệt với nhạcR&B

Âm sắc:

Âm sắc là phẩm chất hay màu sắc của một nốt nhạc hoặc âm thanh Tính

chất vật lí của âm thanh ảnh hưởng chủ yếu đến sự nhận thức âm sắc là phổ

âm thanh Âm sắc giúp phân biệt những loại nhạc cụ khác nhau Ví dụ, phân

biệt một kèn saxophone và một kèn trumpet trong một nhóm chơi nhạc Jazz,ngay cả khi cả hai loại nhạc cụ này đang chơi những nốt nhạc có cùng cường

độ và cao độ

Âm sắc và phổ âm thanh ảnh hưởng chính bởi cấu trúc bộ máy cộng hưởng âm thanh, với tiếng nói đó là bộ máy dẫn âm và phát âm vocal tract Khi phân tích tín hiệu âm thanh, người ta có thể dùng phổ âm thanh thời gian ngắn hoặc dùng phiên bản tối giản đường bao phổ.

Trang 23

Hình 1.11 Đường bao phổ

1.5 Mô hình hóa tiếng nói

Mô hình hóa cơ quan phát âm (vocal tract)

Các tần số cộng hưởng của tiếng nói formant tương ứng với điểm cực của hàm truyền V(z)

Trang 24

k k

tương ứng rời rạc về thời gian là:

z z*  e k T cos2 fT  je kT .2 sin 

fT

(1.3)

Hình 1.12 Mô hình điểm cực formant cơ quan phát âm

Băng tần của formant tương ứng là 2 k và tần số trung tâm là 2ΠFk.Trong mặt phẳng Z đường kính trung tâm đến cực sẽ quyết định băng tầnnghĩa là:

Z  e k T

và k  2  FkT (1.4)

Bởi vậy nếu V(z) tìm được thì tần số cộng hưởng và băng tần cũng được tính, như chỉ ra trên hình vẽ trên tần số thực phức của cơ quan phát âm tất cảthuộc nửa bên trái mặt phẳng s vì vậy nó lμ hệ thống ổn định của phép biếnđổi s, do đó  k 

0 và |Zk|<1 nghĩa là tất cả các điểm cực tương ứng của môhình rời rạc thời gian phải nằm bên trong vòng tròn đơn vị để đảm bảo tính ổnđịnh của hệ thống

Trang 25



mô hình dạng sóng kích thích phải xuất hiện, ở mô hình này máy phát chuỗixung tạo ra chuỗi xung đơn vị quãng cách là chu kỳ cơ bản (chu kỳ cao độ).Tín hiệu này kích thích một hệ thống tuyến tính mμ có đáp ứng xung h(n) là

dạng sóng "thanh môn-glottal" kích thích.

Hình 1.13 Mô hình kích thích âm hữu thanh

Điều chỉnh biên độ Gv, điều khiển một mạch kích thích âm hữu thanh,các nghiên cứu chỉ ra rằng dạng sóng "thanh môn" có thể được thay bằngdạng sóng của xung tổng hợp theo dạng:

và âm vô thanh để tạo tiếng nói có dạng như trong hình 1.14

Trang 26

Bộ mã hoá tiếng nói được phân thành hai loại lớn: bộ mã hoá dạng sóng

và bộ mã hoá tham số nguồn Bộ mã hoá dạng sóng nhằm tạo ra dạng sóngthời gian của tín hiệu tiếng nói càng chính xác càng tốt, chúng được thiết kếđộc lập với nguồn tín hiệu (có nghĩa là có thể áp dụng cho cả loại tín hiệukhác) nên chất lượng không phụ thuộc nhiều vào nguồn tín hiệu chúng có ưu

Trang 27

thế trong việc tiết kiệm băng tần nhưng lại rất phức tạp và có độ ổn địnhkhông cao tuy nhiên chúng ngày càng được khắc phục, để phục vụ cho cáccông nghệ viễn thông hiện tại và trong tương lai.

Hình 1.15 Phương pháp mã hóa tiếng nói PCM

Mã hóa dạng sóng PCM

Mã hoá dạng sóng là quá trình biến đổi các giá trị rời rạc thành các mãtương ứng Phương pháp mã hóa theo dạng sóng cơ bản nhất là phương phápPCM (Pulse Code Modulation) Trong đó, việc lấy mẫu liên quan tới quátrình biến đổi các tín hiệu liên tục thành các tín hiệu rời rạc của trường thờigian gọi là PAM (điều chế biên độ xung) còn việc mã hoá là quá trình lượng

tử hoá các giá trị mẫu này thành các giá trị rời rạc của trường biên độ và sau

Trang 28

tần số cần thiết cho truyền dẫn phải được mở rộng Đồng thời xuyên âm, tạp

âm nhiệt, biến dạng mẫu, mất xung mẫu, biến dạng nén, tạp âm mã hoá, tạp

âm san bằng được sinh ra trong lúc tiến hành lấy mẫu và mã hoá Việc giải

mã là quá trình khôi phục các tín hiệu đã mã hoá thành các tín hiệu PAMđược lượng tử hoá Quá trình này tiến hành theo thứ tự đảo đúng như quátrình mã hoá Mặt khác quá trình lượng tử hoá, nén và mã hoá các tín hiệuPAM được gọi là quá trình mã hoá và quá trình chuyển đổi các tín hiệu PCMthành D/A, sau đó, lọc chúng sau khi giãn để đưa về tiếng nói ban đầu gọi làquá trình giải mã Cấu hình cơ sở của hệ thống truyền dẫn PCM đối với việcthay đổi các tín hiệu tương tự thành các tín hiệu xung mã để truyền dẫn đượcthể hiện ở hình 1.15 Trước tiên các tín hiệu đầu vào được lấy mẫu một cáchtuần tự, sau đó được lượng tử hoá thành các giá trị rời rạc trên trục biên độ Cácgiá trị lượng tử hoá đặc trưng bởi các mã nhị phân Các mã nhị phân này được

mã hoá thành các dạng mã thích hợp tuỳ theo đặc tính của đường truyền dẫn

Mã hóa nguồn tốc độ bit thấp

Mã hóa PCM cho tốc độ bit của tiếng nói đã số hóa là 64 Kbps giống tốc

độ bit của một kênh thông tin số cơ bản chưa ghép kênh [1] Khoảng 20 nămtrở lại đây với sự phát triển mạnh của mạng viễn thông toàn cầu, mạngInternet các dịch vụ viễn thông tích hợp thoại, hình, số liệu thì băng tầntruyền dẫn ngày càng trở nên hạn chế Khi đó, việc sử dụng phương pháp mãhóa PCM với tốc độ cơ bản 64 Kbps là tiêu tốn lãng phí nguồn tài nguyên,hạn chế dung lượng thông tin trên một kênh truyền vật lí Chính vì vậy, rấtnhiều nhà nghiên cứu trên thế giới đã tập trung vào vấn đề mã hóa nguồntiếng nói để đảm bảo tiếng nói được mã hóa có tốc độ bit thấp, có thể dễ dàng

Trang 29

nói phổ biến được biết đến là mã hóa dự đoán tuyến tính LPC [2], mã hóathích nghi CELP [3],

Một trong những phương thức phân tích mạnh nhất là kỹ thuật phân tích

dự đoán tuyến tính LPC [2] Đây là phương pháp chọn trên phương pháp coitín hiệu tiếng nói là hệ thống thay đổi chậm theo thời gian được kích thích bởixung tựa tuần hoàn và nhiễu ngẫu nhiên Mẫu tiếng nói s(n) liên hệ với xungkích thích âm hữu thanh u(n):

hệthống mà đầu ra của nó có phương trình:

được định nghĩa như là một

Phương pháp LPC có ưu thế vượt trội cho việc ước lượng các thông số

cơ bản của tiếng nói như cao độ, formants, phổ,… và mã hoá tốc độ bít thấp

để truyền dẫn và lưu trữ Điều quan trọng của phương pháp này là khả năng

Trang 30

hóa trong các tiêu chuẩn của ITU-T.

1.7 Kỹ thuật phân rã tiếng nói theo thời gian TD và ứng dụng trong mã hóa tiếng nói

Mặc dù nhiều phương pháp mã hóa dạng sóng (như PCM) và mã hóanguồn (như LPC) là tin cậy và đã được tiêu chuẩn hóa và sử dụng rộng rãitrong các hệ thống viễn thông Hiệu quả nén của các phương pháp mã hóaphổ biến này vẫn chưa đảm bảo trong điều kiện tài nguyên hạn chế như các hệthống thông tin di động Chính vì vậy, hướng nghiên cứu cải tiến các phươngpháp mã hóa tiếng nói tốc độ bit thấp vẫn là một hướng nghiên cứu có tínhthời sự ở Việt Nam và trên thế giới hiện nay, trong đó có hướng nghiên cứu

mã hóa tiếng nói tốc độ bit thấp dùng kỹ thuật phân rã tiếng nói theo thời gian(Temporal Decomposition - TD), là một kỹ thuật mô hình hóa và phân tíchtiếng nói được đề xuất bởi Atal năm 1983 [4]

TD được xây dựng dựa trên việc mô hình hóa sự biến đổi của tiếng nóitheo thời gian cũng như dựa trên quá trình tạo ra tiếng nói của con người dựatrên nền tảng hai khái niệm hàm sự kiện (event functions) và điểm sự kiện(event targets) Ở đây điểm sự kiện được xem như các giá trị đặc trưng tĩnh vềmặt âm thanh học như phổ, cao độ âm thanh tương ứng với các trạng thái tĩnhcủa cơ quan phát âm con người, còn hàm sự kiện thể hiện các đặc trưng độngbiến đổi trên trục thời gian tương ứng với sự biến đổi của cơ quan phát âmtrong quá trình phát âm Do quá trình phát âm là một quá trình tuần tự, nốitiếp thay đổi các trạng thái của cơ quan phát âm, quá trình đó có thể được mô

tả xấp xỉ bằng một chuỗi các trạng thái tĩnh và các hàm biến đổi theo thời gianthể hiện sự biến đổi giữa các trạng thái tĩnh Chính vì vậy, TD được coi là một

Trang 31

Hình 1.16 Phân tích một mẫu tiếng nói bằng TD

Ngay sau khi mô hình TD được phát minh, nhiều nghiên cứu đã chỉ ra

TD có rất nhiều ứng dụng trong xử lý tiếng nói như trong nhận dạng [9], tổnghợp [10], và mã hóa nén tiếng nói [5, 6, 7] Tuy nhiên phiên bản TD đầu tiêncủa Atal có một nhược điểm quan trọng Đó là thuật toán TD được xây dựngdựa trên sự ràng buộc toán học chặt chẽ, đảm bảo sai số của quá trình phântích/ tái tạo là nhỏ, nhưng yêu cầu chi phí tính toán lớn, cũng như chưa có sựphù hợp tối ưu với cơ chế sinh học của quá trình tạo ra tiếng nói Đối với mãhóa tiếng nói, chi phí tính toán cao cũng dẫn tới TD không phù hợp với việc

mã hóa tiếng nói thời gian thực Vì vậy, một số nhà nghiên cứu đã cải tiếnthuật toán TD của Atal theo hướng giảm độ phức tạp tính toán để có thể ứngdụng trong mã hóa tiếng nói tốc độ bit thấp thời gian thực, trong đó có cácnghiên cứu của tác giả N.P Chien [5, 6, 7]

Trang 32

trưng tĩnh (event locations) ứng với trạng thái tĩnh của cơ quan phát âm dựatrên các tiêu chí đơn giản hóa về mặt toán học, cũng như việc tối ưu thuật toánMRTD phù hợp với đặc trưng phổ đường (Line Spectral Frequency LSF), làmột dạng đặc trưng phổ được sử dụng phổ biến trong các hệ thống mã hóatiếng nói Các cải tiến của N.P Chiến đã chứng tỏ được hiệu quả và thuật toánMRTD do đó được coi là một thuật toán phù hợp đối với các hệ thống mã hóatiếng nói tốc độ bit thấp Tuy nhiên, cũng giống như các thuật toán mã hóatiếng nói tốc độ bit thấp xây dựng trên mô hình tạo tiếng nói khác, các thuậttoán này cần được thử nghiệm trên tiếng nói của nhiều ngôn ngữ để đảm bảo

sự phù hợp với nhiều ngôn ngữ nói Hiện tại thuật toán MRTD mới chỉ đượcthử nghiệm trên tiếng nói tiếng Anh và tiếng Nhật, trong khi chưa được thửnghiệm trên cơ sở dữ liệu tiếng nói tiếng Việt

Trang 33

T

2.1 Phương pháp TD nguyên thủy

Kỹ thuật phân rã tiếng nói theo thời gian được đề xuất bởi Atal [4] vàđược coi như một phương pháp mã hóa tiếng nói tham số hiệu quả Giả sửmột chuỗi tiếng nói được tạo ra bởi K chuyển động thực hiện bởi K điểm sựkiện Chúng ta gọi các tham số tiếng nói tương ứng với điểm sự kiện thứ k là

a k , và sự biến đổi theo thời gian của sự kiện này biểu diễn bằng một hàm

k .Khung tiếng nói thứ n đi từ 1 đến N Khi phân rã tiếng nói theo thời gian, các

tham số tiếng nói quan sát được y(n) được xấp xỉ bằng yˆn , là một tổ hợp tuyếntính của các điểm sự kiện như sau:

là

a k , và phi là một ma trận

Định dạng
Số trang	68
Dung lượng	1,78 MB