ĐẠI HỌC THÁI NGUYÊNTRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VŨ THANH HUẾ NGHIÊN CỨU PHƯƠNG PHÁP NÉN TIẾNG NÓI TỐC ĐỘ BÍT THẤP BẰNG KỸ THUẬT PHÂN RÃ TIẾNG NÓI THEO THỜI GIAN LUẬ
Trang 1ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
VŨ THANH HUẾ
NGHIÊN CỨU PHƯƠNG PHÁP NÉN TIẾNG NÓI TỐC
ĐỘ BÍT THẤP BẰNG KỸ THUẬT PHÂN RÃ TIẾNG
NÓI THEO THỜI GIAN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
THÁI NGUYÊN - 2015
Trang 2ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
Vũ Thanh Huế
NGHIÊN CỨU PHƯƠNG PHÁP NÉN TIẾNG NÓI TỐC
ĐỘ BÍT THẤP BẰNG KỸ THUẬT PHÂN RÃ TIẾNG
NÓI THEO THỜI GIAN
Ngành : Công nghệ thông tin
Chuyên ngành : Khoa học máy tính
Mã số : 60.48.01.01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học: TS Phùng Trung Nghĩa
Thái Nguyên, năm 2015
Trang 3LỜI CAM ĐOAN
Tên tôi là: Vũ Thanh Huế
Các nội dung trong luận văn đúng như nội dung trong đề cương và yêucầu của thầy giáo hướng dẫn Tất cả tài liệu tham khảo đều có nguồn gốc,xuất xứ rõ ràng Nếu sai tôi hoàn toàn chịu trách nhiệm trước hội đồng khoahọc và trước pháp luật
Tác giả luận văn
Trang 4LỜI CẢM ƠN
Sau một thời gian nghiên cứu và làm việc nghiêm túc, được sự độngviên, giúp đỡ và hướng dẫn tận tình của Thầy giáo hướng dẫn Tiến sĩ Phùng
Trung Nghia, với đề tài luận văn “Nghiên cứu phương pháp nén tiếng nói tốc
độ bit thấp bằng kỹ thuật phân rã tiếng nói theo thời gian” đã hoàn thành.
Em xin bày tỏ lòng biết ơn sâu sắc đến:
Thầy giáo hướng dẫn Tiến sĩ Phùng Trung Nghĩa đã tận tình chỉ d ẫn,giúp đỡ em hoàn thành luận văn này
Bộ phận sau Đại học Trường Đại học công nghệ thông tin và truyềnthông đã giúp đỡ em trong quá trình học tập cũng như thực hiện luận văn
Em xin chân thành cảm ơn bạn bè, đồng nghiệp và gia đình đã độngviên, khích lệ, tạo điều kiện giúp đỡ em trong suốt quá trình học tập, thực hiện
và hoàn thành luận văn này
Em xin chân thành cảm ơn!
Thái Nguyên, ngày tháng năm 2015
Học viên
Vũ Thanh Huế
Trang 5MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN vi
MỤC LỤC vii
LỜI MỞ ĐẦU……… 1
1 Lý do chọn đề tài 1
2 Mục tiêu của đề tài 2
3 Đối tượng và phạm vi nghiên cứu 2
4 Phương pháp nghiên cứu 3
5 Ý nghĩa khoa học và thực tiễn 3
CHƯƠNG 1: TỔNG QUAN VỀ MÃ HÓA TIẾNG NÓI 4
1.1 Thông tin và tín hiệu tiếng nói 4
1.2 Quá trình tạo tiếng nói 5
1.3 Khả năng cảm thụ tiếng nói của con người 9
1.4 Mô hình hóa tiếng nói 13
1.5 Mã hóa tiếng nói 16
1.6 Kỹ thuật phân rã tiếng nói theo thời gian TD và ứng dụng trong mã hóa tiếng nói 20
CHƯƠNG 2: PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT PHÂN RÃ TIẾNG NÓI THEO THỜI GIAN 23
2.1 Phương pháp của Atal 23
2.2 Phương pháp phân rã tiếng nói theo thời gian giới hạn RTD 26
2.3 Phương pháp MRTD 29
2.4 Mã hóa tiếng nói với TD kết hợp sử dụng STRAIGHT 34
2.4.1 Sơ lược về phương pháp mã hóa TD-STRAIGHT 34
2.4.2 Tính tham số phổ đường LSF từ phổ STRAIGHT 36
2.4.3 Lượng tử hóa vector LSF 37
2.4.4 Lượng tử hóa vector sự kiện 37
Trang 62.4.5 Lượng tử hóa hàm sự kiện 37
2.4.6 Lượng tử hóa tham số tần số cơ bản F0 38
2.4.7 Lượng tử hóa tham số độ lợi 38
2.4.8 Lượng tử hóa tham số nhiễu 38
CHƯƠNG 3 ĐÁNH GIÁ THỰC NGHIỆM PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI MRTD VỚI CƠ SỞ DỮ LIỆU TIẾNG VIỆT 40
3.1 Ngữ âm tiếng Việt 40
3.2 Cơ sở dữ liệu tiếng nói tiếng Việt 42
3.3 Cài đặt các phương pháp mã hóa tiếng nói dùng MRTD trên MATLAB.44 3.4 Tiêu chí đánh giá khách quan và chủ quan .46
3.5 Kết quả khách quan và chủ quan các phương pháp ……….49
3.6 Đánh giá các kết quả 51
KẾT LUẬN 52
TÀI LIỆU THAM KHẢO 53
Trang 7DANH MỤC CÁC TỪ VIẾT TẮT
LPC Linear Predictive Coding Mã hóa dự đoán tuyến tính
CELP Code-Excited Linear Prediction
MRTD Modified Restricted Temporal
Trang 8DANH MỤC CÁC BẢNG
Bảng 3.1 Cấu trúc âm tiết tiếng Việt 42
Bảng 3.2 Sáu thanh điệu tiếng Việt 42
Bảng 3.3 Thang điểm Scheffe 47
Bảng 3.4 Thang điểm PESQ 49
Trang 9DANH MỤC CÁC HÌNH VẼ, SƠ ĐỒ
Hình 1.1 Dạng sóng tiếng nói một câu tiếng Việt 4
Hình 1.2 Tiếng nói hữu thanh 5
Hình 1.3 Bộ phận cung cấp làn hơi 5
Hình 1.4 Dây thanh âm 6
Hình 1.5 Cấu trúc cơ quan phát âm 7
Hình 1.6 Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm 8
Hình 1.7 Mô hình hóa cơ quan phát âm 8
Hình 1.8 Mô hình hóa cơ quan phát âm đầy đủ bằng máy tính 9
Hình 1.9 Cơ quan thính giác con người 9
Hình 1.10 Mô hình điểm cực formant cơ quan phát âm 14
Hình 1.11 Mô hình kích thích âm hữu thanh 15
Hình 1.12 Mô hình kích thích nguồn âm 16
Hình 1.13 Phương pháp mã hóa tiếng nói PCM 17
Hình 1.14 Phân tích một mẫu tiếng nói bằng TD 21
Hình 2.1 Ví dụ về hai hàm sự kiện liền kề sử dụng mô hình phân rã bậc hai .27
Hình 2.2 Hàm sự kiện có tính chất “hình học chuẩn” và “hình học không chuẩn”.29 Hình 2.3 Thuật toán chuẩn hóa vector sự kiện 33
Hình 2.4 Hình vẽ các hàm sự kiện nhận được khi MRTD phân tích một câu tiếng Nhật, chỉ số trên miền thời gian là số khung 34
Hình 2.5 Phương pháp mã hóa/giải mã tiếng nói dùng TD-STRAIGHT 36
Hình 3.1 Đường F0 sáu thanh điệu tiếng Việt 41
Hình 3.2 Thuật toán mã hóa và đánh giá chất lượng tiếng nói mã hóa bằng MRTD 45
Hình 3.3 Mô hình hóa người nghe trong PESQ 48
Hình 3.4 Tích hợp phân tích khả năng cảm thụ con người để tính điểm chất lượng tiếng nói nhân tạo 48
Trang 10Hình 3.5 Kết quả đánh giá chủ quan bằng phương pháp của Scheffe với tỉ lệ nén đầu vào là 20 50 Hình 3.6 Kết quả đánh giá chủ quan bằng phương pháp của Scheffe với tỉ lệ nén đầu vào là 30 50 Hình 3.7 Hình ảnh dạng sóng tiếng nói có nén, không nén với tỉ lệ nén là 20 .51
Trang 11MỞ ĐẦU
1 Lý do chọn đề tài
Tiếng nói là phương tiện giao tiếp cơ bản của con người Vì vậy tiếngnói cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ thốngviễn thông Để truyền tiếng nói trong mạng viễn thông, tiếng nói cần phảiđược số hóa Phương pháp mã hóa cơ bản theo dạng xung (Pulse CodeModulation - PCM) cho tốc độ bit của tiếng nói đã số hóa là 64 Kbps giốngtốc độ bit của một kênh thông tin số cơ bản chưa ghép kênh [1] Với sự bùng
nổ về thông tin trong các mạng viễn thông hiện đại, việc sử dụng phươngpháp mã hóa PCM với tốc độ cơ bản 64 Kbps là tiêu tốn lãng phí nguồn tàinguyên, hạn chế dung lượng thông tin trên một kênh truyền vật lí Chính vìvậy, rất nhiều nhà nghiên cứu trên thế giới đã tập trung vào vấn đề mã hóatiếng nói để đảm bảo tiếng nói được mã hóa có tốc độ bit thấp, có thể dễ dàngtăng số kênh truyền logic trên một kênh truyền vật lí, trong khi vẫn phải đảmbảo các yêu cầu về chất lượng [2-7] Các phương pháp mã hóa tiếng nói phổbiến được biết đến là mã hóa dự đoán tuyến tính LPC [2], mã hóa thích nghiADPCM [3], Mặc dù các phương pháp mã hóa này là tin cậy và đã đượctiêu chuẩn hóa và sử dụng rộng rãi trong các hệ thống viễn thông Hiệu quảnén của các phương pháp mã hóa phổ biến này vẫn chưa đảm bảo trong điềukiện tài nguyên hạn chế như các hệ thống thông tin vệ tinh hay di động
Kỹ thuật phân rã tiếng nói theo thời gian (Temporal Decomposition TD) là một kỹ thuật phân tích tiếng nói được đề xuất bởi Atal năm 1983 [4].Các kết quả nghiên cứu cho thấy TD rất thích hợp để phân tích mô hình hóatiếng nói cũng như mã hóa nén tiếng nói Tuy nhiên thuật toán TD của Atal có
-độ phức tạp tính toán cao, không phù hợp với việc mã hóa tiếng nói thời gianthực Vì vậy, một số nhà nghiên cứu đã cải tiến thuật toán TD của Atal theo
Trang 12hướng giảm độ phức tạp tính toán, ứng dụng trong mã hóa tiếng nói tốc độ bitthấp thời gian thực [5, 6, 7] Hướng nghiên cứu này vẫn được tiếp tục pháttriển trong những năm gần đây [8].
Luận văn này nghiên cứu về phương pháp mã hóa tiếng nói tốc độ bitthấp thời gian thực dùng kỹ thuật TD, phân tích lý thuyết, cài đặt thực nghiệm
và đánh giá hiệu quả của phương pháp mã hóa tiếng nói dùng kỹ thuật TD cảitiến giới hạn MRTD với tiếng nói tiếng Việt, từ đó đưa ra các khuyến nghịcho việc phát triển hệ thống mã hóa tiếng nói tốc độ bit thấp thời gian thựcdùng kỹ thuật TD phù hợp cho tiếng Việt
2 Mục tiêu của đề tài
Hướng nghiên cứu mã hóa tiếng nói tốc độ bit thấp dùng kỹ thuật phân
rã tiếng nói theo thời gian TD hiện vẫn được tiếp tục phát triển trong nhữngnăm gần đây [8] nhưng ở Việt Nam, hướng nghiên cứu này còn khá mới mẻ.Luận văn này nghiên cứu về phương pháp mã hóa tiếng nói tốc độ bitthấp thời gian thực dùng kỹ thuật TD bao gồm:
- Thuật toán TD nguyên thủy của Atal,
- Thuật toán cải tiến MRTD của N.P Chiến,
Phân tích lý thuyết, cài đặt thực nghiệm với cơ sở dữ liệu tiếng Việt vàđánh giá hiệu quả của phương pháp MRTD của N.P Chien, từ đó đưa ra cáckhuyến nghị cho việc phát triển hệ thống mã hóa tiếng nói tốc độ bit thấp thờigian thực dùng kỹ thuật TD cho phù hợp với tiếng nói tiếng Việt
3 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của luận văn là các phương pháp mã hóa nén tiếngnói tốc độ bit thấp thời gian thực dùng kỹ thuật TD Đây là đối tượng nghiêncứu được nhiều nhà nghiên cứu trên thế giới quan tâm trong thời gian gần đây
Trang 13Phạm vi của luận văn bao gồm nghiên cứu tổng quan về mã hóa nén tiếngnói [1-3], một số phương pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực[2-8], đặc biệt tập trung vào kỹ thuật mã hóa nén tiếng nói dùng TD [4-8].Luận văn cũng nghiên cứu cài đặt thực nghiệm các phương pháp mã hóadùng MRTD và đánh giá với cơ sở dữ liệu tiếng Việt để đưa ra các khuyếnnghị.
4 Phương pháp nghiên cứu
Phương pháp nghiên cứu của luận văn là nghiên cứu các lý thuyết đã cótrên thế giới [1-8] để phân tích, đánh giá về các kỹ thuật mã hóa tiếng nói tốc
độ bit thấp
Dựa trên các cơ sở lý thuyết và các phân tích, đánh giá, luận văn cũng sẽnghiên cứu thực nghiệm phương pháp mã hóa tiếng nói tốc độ bit thấp thờigian thực dùng kỹ thuật phân rã tiếng nói theo thời gian MRTD Cơ sở dữ liệu
để đánh giá thực nghiệm là cơ sở dữ liệu tiếng nói tiếng Việt Môi trường đểthực nghiệm là MATLAB 7.0
5 Ý nghĩa khoa học và thực tiễn
Nghiên cứu về mã hóa tiếng nói tốc độ bit thấp có vai trò quan trọngtrong các hệ thống truyền thông hiện đại Mặc dù mục tiêu của các bộ mã hóatiếng nói là độc lập ngôn ngữ, hiệu quả của các phương pháp mã hóa tiếng nói
là khác nhau với các cơ sở dữ liệu tiếng nói khác nhau Nghiên cứu về cácphương pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật TD
và thử nghiệm đánh giá với tiếng nói tiếng Việt chưa được nghiên cứu ở ViệtNam Do vậy vấn đề nghiên cứu trong luận văn có ý nghĩa khoa học và thựctiễn
Trang 14CHƯƠNG 1.
TỔNG QUAN VỀ MÃ HÓA TIẾNG NÓI
1.1 Thông tin và tín hiệu tiếng nói
Tiếng nói là dạng thông tin tự nhiên và phổ biến nhất đối với con người
Từ khi lịch sử con người hình thành, con người đã biết sử dụng tiếng nói làmphương tiện giao tiếp chính, trải qua hàng triệu năm trong quá trình tiến hóa
và phát triển của loài người, tiếng nói vẫn luôn giữ vai trò là phương tiện giaotiếp cơ bản nhất Do tiếng nói là phương tiện giao tiếp cơ bản của con người,
nó cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ thống viễnthông từ trước đến nay
Tín hiệu tiếng nói là loại tín hiệu âm thanh phổ biến nhất trong truyềnthông Dải tần tín hiệu tiếng nói nằm trong khoảng 300 Hz - 3400 Hz Tiếngnói bao gồm hai dạng hữu thanh và vô thanh Âm hữu thanh có đặc tính tuầnhoàn còn âm vô thanh tương tự nhiễu
Hình 1.1 Dạng sóng tiếng nói một câu tiếng Việt
Trang 15Hình 1.2 Tiếng nói hữu thanh
1.2 Quá trình tạo tiếng nói
Bộ phận cung cấp làn hơi: Bao gồm hai lá phổi, được sự tác động của
các cơ ngực, sườn, cơ hoành cách mô, cơ bụng Làn hơi đưa lên quyết địnhcường độ của âm thanh
Hình 1.3 Bộ phận cung cấp làn hơi
Trang 16Bộ phận phát thanh vocal cord là thanh đới (dây thanh âm) nằm trong
thanh quản:
Do áp lực của làn hơi từ phổi đưa lên, thanh đới - với những độ căngkhác nhau và hình dạng khác nhau - mở ra và đóng lại nhanh chậm khác nhau,cắt làn hơi thành những sóng âm có tần số khác nhau, tạo thành những âmthanh có cao độ khác nhau Thanh đới ở phụ nữ và trẻ em ngắn và mỏng hơn
ở đàn ông, nên giọng nữ và trẻ em cao hơn giọng đàn ông
Hình 1.4 Dây thanh âm
Bộ phận dẫn âm: Gồm chủ yếu là cuống họng (yết hầu) thông với đường
miệng hoặc đường mũi Các chấn động âm thanh do thanh đới tạo ra, được bộphận dẫn âm gom lại và dẫn ra ngoài theo hai hướng miệng hoặc mũi Cuốnghọng và miệng chủ yếu đóng vai trò truyền âm
Bộ phận phát âm: Là miệng với các hoạt động của môi, răng, lưỡi, hàm
dưới, vòm miệng Chúng ta nhận ra được lời nói, tiếng hát có nghĩa là nhờvào hoạt động của các cơ năng trên Khi nói đến khẩu hình là nói đến hình
Trang 17thể, hình dáng, cả bên ngoài lẫn bên trong của miệng do hoạt động phối hợpcủa môi, lưỡi, hàm dưới, vòm mềm tạo ra khi phát âm Mở khẩu hình khôngđúng cách sẽ ảnh hưởng không chỉ đến chất lượng âm thanh, mà nhất là ảnhhưởng đến việc rõ lời, phát âm đúng.
Bộ phận phát âm đóng vai trò như một hộp cộng hưởng âm thanh Nhờ
sự biến đổi của bộ phận phát âm mà âm thanh được cộng hưởng, triệt tiêu ởcác tần số khác nhau dẫn tới âm thanh được phát ra nghe khác nhau
Hình 1.5 Cấu trúc cơ quan phát âm
Trang 18Hình 1.6 Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm
Biễu diễn bộ phận phát âm: Để phân tích, tổng hợp tiếng nói cần mô
hình hóa cơ quan phát âm trên máy tính Có thể biểu diễn cơ quan phát âmbằng một mô hình gần đúng gồm các hình trụ có độ dài bằng nhau nhưng cóđường kính khác nhau Nói cách khác, cơ quan phát âm có thể được biểu diễnbằng một dãy các bộ lọc nối tiếp có hàm truyền khác nhau Trong quá trìnhphát âm người ta thấy rằng hình dáng cơ quan phát âm (do đó là đặc tuyếncủa các bộ lọc) thay đổi rất chậm, do đó trong một khoảng thời gian ngắn(trong một âm vị) có thể xem như sự thay đổi là không đáng kể, nhưng chúng
sẽ thay đổi rất lớn từ âm vị này sang âm vị khác
Hình 1.7 Mô hình hóa cơ quan phát âm
Trang 19Hình 1.8 Mô hình hóa cơ quan phát âm đầy đủ bằng máy tính
1.3 Khả năng cảm thụ tiếng nói của con người
Tiếng nói và âm thanh nói chung được con người cảm thụ thông qua cơquan thính giác
Hình 1.9 Cơ quan thính giác con người
Trang 20Cơ quan thính giác của con người có một số đặc điểm sau:
• Con người có thể nghe được các tần số âm thanh trong khoảng 15 Hz 20.000 Hz Âm thanh với tần số cao hơn được gọi là siêu âm, thấp hơn
Hình 1.10 Thang tần số Bark
• Thính giác có tính quán tính: Đáp ứng của thính giác với tác động của
âm thanh không phải là ngay tức thì, mà là có tính trễ, các thí nghiệm đã chokết quả với môi trừờng truyền âm bình thừờng sau khi bắt đầu khoảng 200msthính giác mới xác định âm lựợng của nó khi âm ngừng cảm nhận còn âm kéodài chừng 150-200 ms thính giác không phân biệt được hai âm giống nhau điliền nhau khoảng nhỏ hơn 50 ms, tức là có hiện tượng che lấp của âm, phải
Trang 21qua tác động vài chu kỳ thì tai người mới “quen” với cao độ của âm (tần sốcao hay thấp).
• Hiệu ứng không gian (stereo) của tai người là hiệu ứng cảm ứng hai taivới hai nguồn âm tương quan, điều này có ảnh hưởng đến độ rõ của âm khitiến hành kiểm tra hệ thống
• Tính phi tuyến của thính giác, thính giác có mức độ cảm thụ âm nhiễukhông phải là tỉ lệ thuận với độ rộng dải tần, ảnh hưởng của nó là méo âmthanh do thêm thành phần sóng hài, không gây ra sai lệch cho người nghebằng do thêm thành tần số không bội, khi mã hoá phải chú ý đến thành phầntần số không bội
• Đặc điểm về giới tính, lứa tuổi, tâm sinh lý: tức là những yếu tố trên làkhác nhau không những âm thanh phát ra có khác nhau mà cả việc cảm thụ về
âm thanh cũng khác nhau, cho nên phải có sự kiểm tra trên diện rộng trướckhi đưa ra đánh giá
1.4 Một số tham số cơ bản của tiếng nói
Cường độ (độ to) I:
Cường độ liên quan đến năng lượng âm Đối với tai con người, giá trịtuyệt đối của cường độ âm I không quan trọng bằng giá trị tỉ đối của I so vớimột giá trị I0 nào đó chọn làm chuẩn Người ta định nghĩa mức cường độ âmL: L(B) = lg(I/I0) Đơn vị mức cường độ âm là Ben (kí hiệu: B) Mức cường
độ âm bằng 1,2,3,4 B có nghĩa là cường độ âm I lớn gấp 10, 10^2, 10^3,10^4 cường độ âm chuẩn I0 Trong thực tế người ta thường dùng đơn vị dB,bằng 1/10 ben L(dB)= 10lg(I/I0) Khi L= 1dB, thì I lớn gấp 1.26 lần I0 Đó làmức cường độ âm nhỏ nhất mà tai ta có thể phân biệt được
Cao độ (pitch):
Cao độ là độ "cao", "thấp" của âm thanh có quan hệ chặt chẽ với tần sốdao động (nhưng không phải là tương đương) Tần số dao động càng lớn thì
Trang 22âm thanh càng "cao" và ngược lại Với âm thanh thực là tổ hợp của nhiều tần
số thì tần số dao động ở đây là tần số cơ bản F0
Dao động của sóng âm có thể được đo đạc khách quan với kết quả là tần
số Nhưng tần số này khiến não bộ của con người sắp đặt thành những tiêuchuẩn chủ quan về cao độ
Trường độ (duration):
Trong tiếng nói, đặc biệt là các ngôn ngữ châu Âu, trường độ là đặc tínhquan trọng của âm vị, âm tiết Trong âm nhạc, trường độ là độ dài của nốtnhạc Trường độ là một trong những nền tảng của nhịp điệu, đặc biệt với nhạcR&B
Âm sắc:
Âm sắc là phẩm chất hay màu sắc của một nốt nhạc hoặc âm thanh Tính
chất vật lí của âm thanh ảnh hưởng chủ yếu đến sự nhận thức âm sắc là phổ
âm thanh Âm sắc giúp phân biệt những loại nhạc cụ khác nhau Ví dụ, phân
biệt một kèn saxophone và một kèn trumpet trong một nhóm chơi nhạc Jazz,ngay cả khi cả hai loại nhạc cụ này đang chơi những nốt nhạc có cùng cường
độ và cao độ
Âm sắc và phổ âm thanh ảnh hưởng chính bởi cấu trúc bộ máy cộng hưởng âm thanh, với tiếng nói đó là bộ máy dẫn âm và phát âm vocal tract Khi phân tích tín hiệu âm thanh, người ta có thể dùng phổ âm thanh thời gian ngắn hoặc dùng phiên bản tối giản đường bao phổ.
Trang 23Hình 1.11 Đường bao phổ
1.5 Mô hình hóa tiếng nói
Mô hình hóa cơ quan phát âm (vocal tract)
Các tần số cộng hưởng của tiếng nói formant tương ứng với điểm cực của hàm truyền V(z)
Trang 24k k
tương ứng rời rạc về thời gian là:
z z* e k T cos2 fT je kT .2 sin
fT
(1.3)
Hình 1.12 Mô hình điểm cực formant cơ quan phát âm
Băng tần của formant tương ứng là 2 k và tần số trung tâm là 2ΠFk.Trong mặt phẳng Z đường kính trung tâm đến cực sẽ quyết định băng tầnnghĩa là:
Z e k T
và k 2 FkT (1.4)
Bởi vậy nếu V(z) tìm được thì tần số cộng hưởng và băng tần cũng được tính, như chỉ ra trên hình vẽ trên tần số thực phức của cơ quan phát âm tất cảthuộc nửa bên trái mặt phẳng s vì vậy nó lμ hệ thống ổn định của phép biếnđổi s, do đó k
0 và |Zk|<1 nghĩa là tất cả các điểm cực tương ứng của môhình rời rạc thời gian phải nằm bên trong vòng tròn đơn vị để đảm bảo tính ổnđịnh của hệ thống
Trang 25
mô hình dạng sóng kích thích phải xuất hiện, ở mô hình này máy phát chuỗixung tạo ra chuỗi xung đơn vị quãng cách là chu kỳ cơ bản (chu kỳ cao độ).Tín hiệu này kích thích một hệ thống tuyến tính mμ có đáp ứng xung h(n) là
dạng sóng "thanh môn-glottal" kích thích.
Hình 1.13 Mô hình kích thích âm hữu thanh
Điều chỉnh biên độ Gv, điều khiển một mạch kích thích âm hữu thanh,các nghiên cứu chỉ ra rằng dạng sóng "thanh môn" có thể được thay bằngdạng sóng của xung tổng hợp theo dạng:
và âm vô thanh để tạo tiếng nói có dạng như trong hình 1.14
Trang 26Bộ mã hoá tiếng nói được phân thành hai loại lớn: bộ mã hoá dạng sóng
và bộ mã hoá tham số nguồn Bộ mã hoá dạng sóng nhằm tạo ra dạng sóngthời gian của tín hiệu tiếng nói càng chính xác càng tốt, chúng được thiết kếđộc lập với nguồn tín hiệu (có nghĩa là có thể áp dụng cho cả loại tín hiệukhác) nên chất lượng không phụ thuộc nhiều vào nguồn tín hiệu chúng có ưu
Trang 27thế trong việc tiết kiệm băng tần nhưng lại rất phức tạp và có độ ổn địnhkhông cao tuy nhiên chúng ngày càng được khắc phục, để phục vụ cho cáccông nghệ viễn thông hiện tại và trong tương lai.
Hình 1.15 Phương pháp mã hóa tiếng nói PCM
Mã hóa dạng sóng PCM
Mã hoá dạng sóng là quá trình biến đổi các giá trị rời rạc thành các mãtương ứng Phương pháp mã hóa theo dạng sóng cơ bản nhất là phương phápPCM (Pulse Code Modulation) Trong đó, việc lấy mẫu liên quan tới quátrình biến đổi các tín hiệu liên tục thành các tín hiệu rời rạc của trường thờigian gọi là PAM (điều chế biên độ xung) còn việc mã hoá là quá trình lượng
tử hoá các giá trị mẫu này thành các giá trị rời rạc của trường biên độ và sau
Trang 28tần số cần thiết cho truyền dẫn phải được mở rộng Đồng thời xuyên âm, tạp
âm nhiệt, biến dạng mẫu, mất xung mẫu, biến dạng nén, tạp âm mã hoá, tạp
âm san bằng được sinh ra trong lúc tiến hành lấy mẫu và mã hoá Việc giải
mã là quá trình khôi phục các tín hiệu đã mã hoá thành các tín hiệu PAMđược lượng tử hoá Quá trình này tiến hành theo thứ tự đảo đúng như quátrình mã hoá Mặt khác quá trình lượng tử hoá, nén và mã hoá các tín hiệuPAM được gọi là quá trình mã hoá và quá trình chuyển đổi các tín hiệu PCMthành D/A, sau đó, lọc chúng sau khi giãn để đưa về tiếng nói ban đầu gọi làquá trình giải mã Cấu hình cơ sở của hệ thống truyền dẫn PCM đối với việcthay đổi các tín hiệu tương tự thành các tín hiệu xung mã để truyền dẫn đượcthể hiện ở hình 1.15 Trước tiên các tín hiệu đầu vào được lấy mẫu một cáchtuần tự, sau đó được lượng tử hoá thành các giá trị rời rạc trên trục biên độ Cácgiá trị lượng tử hoá đặc trưng bởi các mã nhị phân Các mã nhị phân này được
mã hoá thành các dạng mã thích hợp tuỳ theo đặc tính của đường truyền dẫn
Mã hóa nguồn tốc độ bit thấp
Mã hóa PCM cho tốc độ bit của tiếng nói đã số hóa là 64 Kbps giống tốc
độ bit của một kênh thông tin số cơ bản chưa ghép kênh [1] Khoảng 20 nămtrở lại đây với sự phát triển mạnh của mạng viễn thông toàn cầu, mạngInternet các dịch vụ viễn thông tích hợp thoại, hình, số liệu thì băng tầntruyền dẫn ngày càng trở nên hạn chế Khi đó, việc sử dụng phương pháp mãhóa PCM với tốc độ cơ bản 64 Kbps là tiêu tốn lãng phí nguồn tài nguyên,hạn chế dung lượng thông tin trên một kênh truyền vật lí Chính vì vậy, rấtnhiều nhà nghiên cứu trên thế giới đã tập trung vào vấn đề mã hóa nguồntiếng nói để đảm bảo tiếng nói được mã hóa có tốc độ bit thấp, có thể dễ dàng
Trang 29nói phổ biến được biết đến là mã hóa dự đoán tuyến tính LPC [2], mã hóathích nghi CELP [3],
Một trong những phương thức phân tích mạnh nhất là kỹ thuật phân tích
dự đoán tuyến tính LPC [2] Đây là phương pháp chọn trên phương pháp coitín hiệu tiếng nói là hệ thống thay đổi chậm theo thời gian được kích thích bởixung tựa tuần hoàn và nhiễu ngẫu nhiên Mẫu tiếng nói s(n) liên hệ với xungkích thích âm hữu thanh u(n):
hệthống mà đầu ra của nó có phương trình:
được định nghĩa như là một
Phương pháp LPC có ưu thế vượt trội cho việc ước lượng các thông số
cơ bản của tiếng nói như cao độ, formants, phổ,… và mã hoá tốc độ bít thấp
để truyền dẫn và lưu trữ Điều quan trọng của phương pháp này là khả năng
Trang 30hóa trong các tiêu chuẩn của ITU-T.
1.7 Kỹ thuật phân rã tiếng nói theo thời gian TD và ứng dụng trong mã hóa tiếng nói
Mặc dù nhiều phương pháp mã hóa dạng sóng (như PCM) và mã hóanguồn (như LPC) là tin cậy và đã được tiêu chuẩn hóa và sử dụng rộng rãitrong các hệ thống viễn thông Hiệu quả nén của các phương pháp mã hóaphổ biến này vẫn chưa đảm bảo trong điều kiện tài nguyên hạn chế như các hệthống thông tin di động Chính vì vậy, hướng nghiên cứu cải tiến các phươngpháp mã hóa tiếng nói tốc độ bit thấp vẫn là một hướng nghiên cứu có tínhthời sự ở Việt Nam và trên thế giới hiện nay, trong đó có hướng nghiên cứu
mã hóa tiếng nói tốc độ bit thấp dùng kỹ thuật phân rã tiếng nói theo thời gian(Temporal Decomposition - TD), là một kỹ thuật mô hình hóa và phân tíchtiếng nói được đề xuất bởi Atal năm 1983 [4]
TD được xây dựng dựa trên việc mô hình hóa sự biến đổi của tiếng nóitheo thời gian cũng như dựa trên quá trình tạo ra tiếng nói của con người dựatrên nền tảng hai khái niệm hàm sự kiện (event functions) và điểm sự kiện(event targets) Ở đây điểm sự kiện được xem như các giá trị đặc trưng tĩnh vềmặt âm thanh học như phổ, cao độ âm thanh tương ứng với các trạng thái tĩnhcủa cơ quan phát âm con người, còn hàm sự kiện thể hiện các đặc trưng độngbiến đổi trên trục thời gian tương ứng với sự biến đổi của cơ quan phát âmtrong quá trình phát âm Do quá trình phát âm là một quá trình tuần tự, nốitiếp thay đổi các trạng thái của cơ quan phát âm, quá trình đó có thể được mô
tả xấp xỉ bằng một chuỗi các trạng thái tĩnh và các hàm biến đổi theo thời gianthể hiện sự biến đổi giữa các trạng thái tĩnh Chính vì vậy, TD được coi là một
Trang 31Hình 1.16 Phân tích một mẫu tiếng nói bằng TD
Ngay sau khi mô hình TD được phát minh, nhiều nghiên cứu đã chỉ ra
TD có rất nhiều ứng dụng trong xử lý tiếng nói như trong nhận dạng [9], tổnghợp [10], và mã hóa nén tiếng nói [5, 6, 7] Tuy nhiên phiên bản TD đầu tiêncủa Atal có một nhược điểm quan trọng Đó là thuật toán TD được xây dựngdựa trên sự ràng buộc toán học chặt chẽ, đảm bảo sai số của quá trình phântích/ tái tạo là nhỏ, nhưng yêu cầu chi phí tính toán lớn, cũng như chưa có sựphù hợp tối ưu với cơ chế sinh học của quá trình tạo ra tiếng nói Đối với mãhóa tiếng nói, chi phí tính toán cao cũng dẫn tới TD không phù hợp với việc
mã hóa tiếng nói thời gian thực Vì vậy, một số nhà nghiên cứu đã cải tiếnthuật toán TD của Atal theo hướng giảm độ phức tạp tính toán để có thể ứngdụng trong mã hóa tiếng nói tốc độ bit thấp thời gian thực, trong đó có cácnghiên cứu của tác giả N.P Chien [5, 6, 7]
Trang 32trưng tĩnh (event locations) ứng với trạng thái tĩnh của cơ quan phát âm dựatrên các tiêu chí đơn giản hóa về mặt toán học, cũng như việc tối ưu thuật toánMRTD phù hợp với đặc trưng phổ đường (Line Spectral Frequency LSF), làmột dạng đặc trưng phổ được sử dụng phổ biến trong các hệ thống mã hóatiếng nói Các cải tiến của N.P Chiến đã chứng tỏ được hiệu quả và thuật toánMRTD do đó được coi là một thuật toán phù hợp đối với các hệ thống mã hóatiếng nói tốc độ bit thấp Tuy nhiên, cũng giống như các thuật toán mã hóatiếng nói tốc độ bit thấp xây dựng trên mô hình tạo tiếng nói khác, các thuậttoán này cần được thử nghiệm trên tiếng nói của nhiều ngôn ngữ để đảm bảo
sự phù hợp với nhiều ngôn ngữ nói Hiện tại thuật toán MRTD mới chỉ đượcthử nghiệm trên tiếng nói tiếng Anh và tiếng Nhật, trong khi chưa được thửnghiệm trên cơ sở dữ liệu tiếng nói tiếng Việt
Trang 33T
T
2.1 Phương pháp TD nguyên thủy
Kỹ thuật phân rã tiếng nói theo thời gian được đề xuất bởi Atal [4] vàđược coi như một phương pháp mã hóa tiếng nói tham số hiệu quả Giả sửmột chuỗi tiếng nói được tạo ra bởi K chuyển động thực hiện bởi K điểm sựkiện Chúng ta gọi các tham số tiếng nói tương ứng với điểm sự kiện thứ k là
a k , và sự biến đổi theo thời gian của sự kiện này biểu diễn bằng một hàm
k .Khung tiếng nói thứ n đi từ 1 đến N Khi phân rã tiếng nói theo thời gian, các
tham số tiếng nói quan sát được y(n) được xấp xỉ bằng yˆn , là một tổ hợp tuyếntính của các điểm sự kiện như sau:
là
a k , và phi là một ma trận