Trong xử lý tiếng nói vànhất là trong tổng hợp tiếng nói để mô phỏng lại tuyến âm người ta phải xác định đượccác tham số formant đối với từng loại âm vị, do đó việc đánh giá, ước lượng c
Trang 1Chương 1 Tổng quan về tiếng nói và xử lý tiếng nói 3
1.1 Tiếng nói và đặc điểm của tiếng nói 3
1.1.1 Đặc tính vật lý của âm thanh 4
1.1.1.1 Độ cao (Pitch) 4
1.1.1.2 Cường độ 4
1.1.1.3 Trường độ 5
1.1.1.4 Âm sắc 5
1.1.2 Đặc tính âm học của âm thanh 5
1.1.2.1 Nguyên âm 5
1.1.2.2 Phụ âm 6
1.1.2.3 Tỷ suất thời gian 6
1.1.2.4 Hàm năng lượng thời gian ngắn 6
1.1.2.5 Tần số vượt qua điểm không 7
1.1.2.6 Phát hiện điểm cuối 7
1.1.2.7 Tần số cơ bản 8
1.1.2.8 Formant 9
1.1.3 Phân loại đơn giản dạng sóng tiếng nói: 10
1.1.4 Bộ máy phát âm và cơ chế phát âm 11
1.1.4.1 Bộ máy phát âm 11
1.1.4.2 Cơ chế phát âm 11
1.2 Một số kiến thức chung về xử lý tín hiệu rời rạc 12
1.2.1 Mô hình hệ xử lý tín hiệu rời rạc 12
1.2.2 Phép biến đổi Z 14
1.3 Mô hình tạo tiếng nói 15
1.4 Biểu diễn số tiếng nói 18
1.4.1 Xác định tần số lấy mẫu tín hiệu tiếng nói 20
1.4.2 Lượng tử hoá 21
1.4.3 Nén tín hiệu tiếng nói 21
1.5 Tổng quan về mã hoá tiếng nói 22
1.5.1 Mã hóa dạng sóng 23
1.5.2 Mã hoá nguồn 26
1.5.3 Mã hoá lai 27
1.6 Tổng quan về tổng hợp tiếng nói 28
1.6.1 Giới thiệu chung 28
1.6.2 Các mô hình tổng hợp tiếng nói 29
1.6.2.1 Tổng hợp formant 29
1.6.2.2 Tổng hợp LPC 30
1.6.2.3 Tổng hợp dùng mô phỏng bộ máy phát âm 31
Chương 2 Ứng dụng của LPC trong xử lý tiếng nói 32
1 Phương pháp dự đoán tuyến tính trong xử lý tiếng nói 32
a, Phương pháp tự tương quan 36
b, Phương pháp covariance 37
1.1.2 Xác định hệ số khuyếch đại 39
Trang 21.1.3 Xác định hệ số tiên đoán tuyến tính 41
a, Phương pháp covariance 41
b, Phương pháp tự tương quan 44
2 Ứng dụng LPC trong phân tích tiếng nói 45
2.1 Dò tìm formant 45
2.2 Dùng bộ lọc đảo để tìm F0 47
3 Tổng hợp tiếng nói 49
3.1 Giới thiệu 49
3.2 Cơ sở lý thuyết 49
3.2.1 Mô hình vật lý 49
3.2.2 Mô hình toán học 50
3.2.3 Mô hình phân tích và tổng hợp LPC 53
3.3 Xây dựng mô hình 61
3.3.1 Khối phân tích LPC 62
3.3.2 Khối tổng hợp LPC 64
3.4 Chuẩn LPC 10e 65
3.4.1 Giới thiệu 65
3.4.2 Xây dựng mô hình 66
Chương 3 Xây dựng chương trình 74
Trang 3Lời nói đầu
Trong thời đại ngày nay, cùng với sự phát triển mạnh mẽ của khoa học kỹ thuật thìvấn đề trao đổi thông tin đa phương tiện ngày càng trở nên cần thiết, từ lúc đầu chỉgiao tiếp, tương tác thông qua các văn bản giấy tờ, ngày nay nhu cầu sử dụng tiếngnói trong truyền thông, tương tác người máy càng trở nên cấp thiết hơn Vì vậy màmột lĩnh vực kỹ thuật mới đã ra đời, đó là xử lý tiếng nói
Mặc dù mới nhưng xử lý tiếng nói đã đạt được những thành tựu đáng kể Các ứngdụng của xử lý tiếng nói đã và đang được áp dụng trong rất nhiều lĩnh vực khác nhautrong xã hội như nhận dạng, tổng hợp tiếng nói, tương tác người máy, truyền thông,dạy học, ….Nhờ có xử lý tiếng nói mà con người có thể tạo ra những máy móc thôngminh hơn, có khả năng hiểu được tiếng nói con người và có thể giao tiếp với conngười thông qua lời nói
Một trong những phương pháp được ứng dụng rất nhiều trong lĩnh vực xử lý tiếng nói
đó là phương pháp mã hóa dự đoán tính (LPC) Phương pháp LPC được sử dụngtrong các phân tích tiếng nói, mã hóa tiếng nói, tổng hợp tiếng nói… Do vậy tôi đãchọn đề tài là “Tìm hiểu về phương pháp LPC trong xử lý tiếng nói”
Nội dung của đồ án này gồm có ba chương
Chương 1: Tổng quan về tiếng nói và xử lý tiếng nói
Chương này sẽ nêu một cách tổng quan về những vấn đề liên quan đếntiếng nói và xử lý tiếng nói:
Giới thiệu về tiếng nói, các đặc trưng và cơ chế tạo tiếng nói của conngười
Giới thiệu tổng quan về đặc điểm, hoạt động và một số phép biến đổicủa một hệ xử lý tín hiệu chung
Các phương pháp trong xử lý tiếng nói như: tổng hợp tiếng nói, mãhóa tiếng nói, phân tích tiếng nói
Trang 4Chương 2: Ứng dụng của LPC trong xử lý tiếng nói
Chương này sẽ đề cập tới phương pháp LPC trong xử lý tiếng nói
Trình bày cơ sở của phương pháp LPC
Ứng dụng của LPC trong phân tích tiếng nói
Mô hình tổng hợp tiếng nói LPC
Chương 3: Xây dựng chương trình
Chương này giới thiệu về chương trình đã được xây dựng, các kết quả đạtđược và nêu ra nhận xét
Kết luận: Khái quát những kết quả đạt được Định hướng phát triển tiếp
Trang 5Chương 1 Tổng quan về tiếng nói và xử lý tiếng nói
1 Tiếng nói và đặc điểm của tiếng nói
Tiếng nói là một trong những phương tiện trao đổi thông tin của con người Tiếng nóiđược tạo ra từ tư duy của con người dưới sự chỉ đạo của trung khu thần kinh, mệnh lệnhphát sinh tiếng nói được phát ra và hệ thống phát âm thực hiện nhiệm vụ tạo âm thanh.Tiếng nói mà con người vẫn giao tiếp hàng ngày có bản chất là sóng âm thanh lan truyềntrong không khí Sóng âm thanh trong không khí là sóng dọc sinh ra do sự dãn nở củakhông khí Tín hiệu âm thanh là tín hiệu biến thiên liên tục về thời gian và biên độ, có dảitần số rất rộng Tuy nhiên tai người chỉ có thể nhận biết được các sóng âm có tần số trongkhoảng 20 - 20000 (Hz) Những sóng âm có tần số lớn hơn 20000 Hz gọi là sóng siêu
âm Những sóng có tần số nhỏ hơn 20 Hz gọi là sóng hạ âm Thực tế người ta có thể hạnchế dải tần số của tín hiệu tiếng nói trong khoảng từ 300 đến 3500 Hz Do đó, quá trìnhphân tích cũng như tổng hợp tiếng nói chỉ cần dùng một số nhất định các tham số cũng đủ
để biểu diễn tín hiệu tiếng nói mà não người xử lý
Hình 1.1 Mô phỏng quá trình truyền tiếng nói trong không khí
Về bản chất vật lí, sóng âm, sóng siêu âm, sóng hạ âm không khác gì nhau và cũng nhưcác sóng cơ học khác Sự phân biệt như trên là dựa vào khả năng cảm thụ các sóng cơhọc của tai con người, do các đặc tính sinh lí của tai người quyết định Vì vậy sóng âmthanh được phân biệt hai loại đặc tính là đặc tính vật lý và đặc tính âm học
Trang 61.1 Đặc tính vật lý của âm thanh
Bản chất âm thanh tiếng nói là sóng cơ học nên có các tính chất cơ bản của sóng cơ học.Các tính chất của sóng cơ học mang một ý nghĩa khác khi xét trên góc độ là âm thanhtiếng nói
Tín hiệu âm thanh tiếng nói là một tín hiệu ngẫu nhiên không dừng, tuy nhiên những đặctính của nó tương đối ổn định trong những khoảng thời gian ngắn (vài chục mili giây).Trong khoảng thời gian nhỏ đó tín hiệu gần tuần hoàn, có thể coi như tuần hoàn
a, Độ cao (Pitch)
Độ cao hay còn gọi là độ trầm bổng của âm thanh chính là tần số của sóng cơ học Âmthanh nào phát ra cũng ở một độ cao nhất định Độ trầm bổng của âm thanh phụ thuộcvào sự chấn động nhanh hay chậm của các phần tử trong không khí trong một đơn vị thờigian nhất định Nói cách khác, độ cao của âm phụ thuộc vào tần số dao động Đối vớitiếng nói, tần số dao động của dây thanh quy định độ cao giọng nói của con người và mỗingười có một độ cao giọng nói khác nhau
Độ cao của nữ giới thường cao hơn so với nam giới và độ cao tiếng nói của trẻ em caohơn so với nữ giới, điều này cũng tương tự đối với tần số của dây thanh
b, Cường độ
Cường độ chính là độ to nhỏ của âm thanh, cường độ càng lớn thì âm thanh có thể truyền
đi càng xa trong môi trường có nhiễu Nếu xét trên góc độ sóng cơ học thì cường độchính là biên độ của dao động sóng âm, nó quyết định cho năng lượng của sóng âm.Trong tiếng nói, cường độ của nguyên âm phát ra thường lớn hơn phụ âm Do vậy chúng
ta thường dễ phát hiện ra nguyên âm hơn so với phụ âm Tuy nhiên đối với tai người giátrị tuyệt đối của cường độ âm I không quan trọng bằng giá trị tỉ đối của I so với một giátrị I0 nào đó chọn làm chuẩn Người ta định nghĩa mức cường độ âm L là logarit thậpphân của tỉ số I/I0: (đơn vị mức cường độ là Ben - kí hiệu B)
Trang 70
lg)(
I
I B
1.2 Đặc tính âm học của âm thanh
Tín hiệu tiếng nói là tín hiệu tương tự biểu diễn cho thông tin về mặt ngôn ngữ và được
mô tả bởi các âm vị khác nhau Tuỳ theo từng ngôn ngữ cụ thể mà số lượng các âm vịnhiều hay ít Thông thường số lượng các âm vị vào khoảng 20 – 30 và nhỏ hơn 50 đối vớimọi ngôn ngữ Đối với từng loại âm vị mà có các đặc tính âm thanh khác nhau Các âm vịđược chia thành hai loại nguyên âm và phụ âm Tổ hợp các âm vị tạo nên âm tiết Âm tiếtđóng vai trò một từ trọn vẹn mang ngữ nghĩa
a, Nguyên âm
Nguyên âm được tạo ra bằng sự cộng hưởng của dây thanh khi dòng khí được thanh mônđẩy lên Khoang miệng được tạo lập thành nhiều hình dạng nhất định tạo thành cácnguyên âm khác nhau Số lượng các nguyên âm phụ thuộc vào từng ngôn ngữ nhất định.Mỗt nguyên âm được đặc trưng bởi 3 formant đầu tiên, các formant tiếp theo thường thì ítmang thông tin hơn
b, Phụ âm
Phụ âm được tạo ra bởi các dòng khí hỗn loạn được phát ra gần những điểm co thắt củađường dẫn âm thanh do cách phát âm tạo thành Dòng không khí tại chỗ đóng của vòm
Trang 8miệng tạo ra phụ âm tắc Những phụ âm xát được phát ra từ chỗ co thắt lớn nhất và các
âm tắc xát tạo ra từ khoảng giữa Phụ âm có đặc tính hữu thanh và vô thanh tuỳ thuộcviệc dây thanh có dao động để tạo thành cộng hưởng không Đặc tính của phụ âm tuỳthuộc vào tính chu kỳ của dạng sóng, phổ tần số, thời gian tồn tại và sự truyền dẫn âm
c, Tỷ suất thời gian
Trong khi nói chuyện, khoảng nói chuyện và khoảng nghỉ xen kẽ nhau Phần trăm thờigian nói trên tổng số thời gian nói và nghỉ được gọi là tỷ xuất thời gian Giá trị này biếnđổi tuỳ thuộc vào tốc độ nói và từ đó ta có thể phân loại thành nói nhanh, nói chậm haynói bình thường
d, Hàm năng lượng thời gian ngắn
Hàm năng lượng thời gian ngắn của tiếng nói được tính bằng cách chia tín hiệu tiếng nóithành nhiều khung chứa N mẫu và tính diện tích trung bình tổng các mẫu tín hiệu trongmỗi khung Các khung này được đưa qua một cửa sổ có dạng hàm như sau:
Với 0 n NVới n N
0
1W(n)
NnVới
n n
W
0
1 )
cos(
46.054.0)(
Trang 9Hàm năng lượng ngắn tại mẫu thứ m được tính theo công thức sau :
Hàm năng lượng thời gian ngắn của âm hữu thanh thường lớn hơn so với âm vô thanh
e, Tần số vượt qua điểm không
Tần suất vượt qua điểm không là số lần biên độ tín hiệu tiếng nói vượt qua giá trị khôngtrong một khoảng thời gian cho trước Thông thường giá trị này đối với âm vô thanh lớnhơn âm hữu thanh do đặc tính ngẫu nhiên của âm vô thanh Do đo tần suất vượt qua điểmkhông là tham số quan trọng để phân loại âm hữu thanh và âm vô thanh
f, Phát hiện điểm cuối
Trong xử lý tiếng nói việc xác định khi nào bắt đầu xuất hiện tín hiệu tiếng nói và khi nàokết thúc quá trình nói rất cần thiết và quan trọng Trong một môi trường nhiều tiếng ồn(nhiễu ) hoặc môi trường nhiều người nói thì việc phát hiện điểm kết thúc rất khó khăn
Có rất nhiều phương pháp để phát hiện điểm cuối của tiếng nói Ví dụ như một phươngpháp đơn giản sau :
Lấy một mẫu nhỏ của nền nhiễu trong khoảng thời gian yên lặng trước khi bắt đầu nói
Sử dụng hàm năng lượng thời gian ngắn để tính năng lượng cho mẫu Ngưỡng của tiếngnói được chọn là giá trị giữa năng lượng yên tĩnh và năng lượng đỉnh Ban đầu giả thiếtđiểm cuối xuất hiện tại điểm năng lượng tín hiệu vượt quá mức ngưỡng Để tính đúngước lượng này, người ta giả thiết và so sánh chúng với giá trị đó trong vùng yên tĩnh Khinhững thay đổi phát hiện được trong khi tính toán tần suất trên suất hiện ở ngoài ngưỡnggiả thiết thì điểm cuối được giả thiết lại tại điểm mà sự thay đổi xảy ra
Trang 10g, Tần số cơ bản
Dạng sóng của tiếng nói gồm hai phần: Phần gần giống nhiễu trong đó biên độ biến đổingẫu nhiên và phần tuần hoàn Phần tín hiệu có tính chu kỳ chứa các thành phần tần số códạng điều hòa Tần số thấp nhất chính là tần số cơ bản và cũng chính là tần số dao độngcủa dây dây thanh
Đối với những người nói khác nhau, tần số cơ bản cũng khác nhau Tần số cơ bản của trẻ
em thường cao hơn so với người lớn và của nữ giới cao hơn so với nam giới, Sau đây làmột số giá trị tần số cơ bản tương ứng với giới tính và tuổi:
Người nói Giá trị tần số cơ bản
Đối với hai âm có cùng cường độ, cùng độ cao sẽ được phân biệt bởi tính tuần hoàn Một
âm hữu thanh có tín hiệu gần như tuần hoàn khi được phân tích phổ sẽ xuất hiện mộtvạch tại vùng tần số rất thấp Vạch này đặc trưng cho tính tuần hoàn cơ bản của âm hay
đó chính là tần số cơ bản của âm Trong giao tiếp bình thường tần số cơ bản thay đổi liêntục tạo nên ngữ điệu cho tiếng nói
Hình dưới mô tả tín hiệu trên miền thời gian và phổ của chúng (trên miền tần số) của cácnguyên âm a, i, u đỉnh đầu tiên của các phổ tương ứng với tần số cơ bản F0
Trang 11Hình 1.2 Tín hiệu và phổ của tín hiệu
h, Formant
Trong phổ tần số của tín hiệu tiếng nói, mỗi đỉnh có biên độ cao nhất xét trong mộtkhoảng nào đó (còn gọi là cực trị địa phương) xác định một formant Ngoài tần số,formant còn được xác định bởi biên độ và dải thông của chúng Về mặt vật lý các tần sốformant tương ứng với các tần số cộng hưởng của tuyến âm Trong xử lý tiếng nói vànhất là trong tổng hợp tiếng nói để mô phỏng lại tuyến âm người ta phải xác định đượccác tham số formant đối với từng loại âm vị, do đó việc đánh giá, ước lượng các formant
có ý nghĩa rất quan trọng
Tần số formant biến đổi trong một khoảng rộng phụ thuộc vào giới tính của người nói vàphụ thuộc vào các dạng âm vị tương ứng với formant đó Đồng thời, formant còn phụthuộc các âm vị trước và sau đó Về cấu trúc tự nhiên, tần số formant có liên hệ chặt chẽvới hình dạnh và kích thước tuyến âm Thông thường trong phổ tần số của tín hiệu cókhoảng 6 formant nhưng chỉ có 3 formant đầu tiên ảnh hưởng quan trọng đến các đặc tínhcủa các âm vị, còn các formant còn lại cũng có ảnh hưởng song rất ít Các formant có giátrị tần số xê dịch từ vài trăm đến vài nghìn Hz
Tần số formant đặc trưng cho các nguyên âm biến đổi tuỳ thuộc vào người nói trong điềukiện phát âm nhất định Mặc dù phạm vi của các tần số formant tương ứng với mỗinguyên âm có thể trùng lên nhau nhưng vị trí giữa các formant đó không đổi vì sự xê dịchcủa các formant là song song
Ngoài formant, các âm mũi còn có các tần số bị suy giảm gọi là phản formant formant) Phản formant được tạo nên khi luồng khí đi qua khoang mũi Các formant
Trang 12(anti-tương ứng nói các điểm cực của hàm truyền đạt vì tại lân cận điểm cực giá trị hàm truyềnđạt là rất lớn, tương tự vậy các anti-formant tương ứng với các điểm không của hàmtruyền đạt
1.3 Phân loại đơn giản dạng sóng tiếng nói:
Tiếng nói của con người tạo ra bao gồm có hai thành phần đó là:
Phần gần tuần hoàn mà hầu như lặp lại cùng chu kỳ được gọi là tiếngnói hữu thanh (voiced speech) Chu kỳ lặp lại đó gọi là chu kì cơ bản T0nghịch đảo của
T0 là tần số cơ bản F0 Âm hữu thanh được phát ra bởi một luồng khí cực mạnh từ thanhmôn thổi qua dây thanh làm dung dây thanh, sự dao động của dây thanh tạo nên nguồntuần hoàn Nguồn tuần hoàn kích thích tuyến âm tạo nên âm hữu thanh Vùng âm hữuthanh chiếm thành phần chủ yếu của sóng tiếng nói, chứa đựng lượng tin nhiều nhất vàthời gian lớn nhất trong quá trình nói
Phần tín hiệu có dạng giống như tập âm nhiễu có biên độ ngẫu nhiêncòn được gọi là tiếng nói vô thanh (unvoiced speech) Tiếng nói vô thanh được tạo ra do
sự co thắt theo một dạng nào đó của tuyến âm và luồng khí chạy qua chỗ thắt với tộc độlớn tạo nên nhiễu loạn, ví dụ như lúc ta nói thì thào (cần phân biệt thì thầm với thì thào,theo từ điển tiếng Việt thì thào là nói chuyện với nhau rất nhỏ tựa như gió thoảng qua taicòn thì thầm là nói chuyện với nhau không để người ngoài nghe thấy) Năng lượng donguồn nhiễu loạn tạo ra sẽ kích thích tuyến âm tạo nên tiếng nói vô thanh, năng lượngcủa tiếng nói vô thanh nhỏ hơn so với tiếng nói hữu thanh
Ta có thể phát hiện ra tiếng nói hữu thanh là khi nói dây thanh rung Còn âm vô thanh khinói dây thanh không rung Nói thì thào thì ở xa không nghe được do năng lượng của âm
vô thanh rất nhỏ và tiếng thì thào là do âm vô thanh tạo nên
Trang 131.4 Bộ máy phát âm và cơ chế phát âm
âm đến khoang miệng) và sau khi đi qua khoang mũi, môi sẽ tạo ra tiếng nói
- Thanh quản chứa hai dây thanh có thể dao động tạo ra sự cộng hưởng đầu tiêncủa quá trình tạo thành âm thanh
- Ống dẫn âm là một ống không đồng dạng bắt đầu từ môi, kết thúc bởi dâythanh hoặc thanh quản Ống có độ dài khoảng 17cm đối với người bình thường
11 Dây thanh giả
12 Dây thanh
13 Thanh quản
14 Thực quản
15 Khí quản
Trang 14- Khoang mũi cũng là ống không đồng dạng thuộc vùng cố định bắt đầu từ mũi,kết thục tại vòm miệng, đối với người bình thường khoang mũi có độ dài 12 cm
- Khoang miệng là các nếp da chuyển động có thể điều khiển sự ghép âm thanhgiữa khoang miệng và khoang mũi
Hình 1.4 Mô tả dây thanh âm
Trong quá trình phát âm, nếu là âm mũi thì vòm miệng hạ thấp và dòng khí chỉ đi quađường mũi, nếu là âm thường thì vòm miệng mở, đường mũi khép lại và dòng khí đi theokhoang miệng ra môi
2 Một số kiến thức chung về xử lý tín hiệu rời rạc
2.1 Mô hình hệ xử lý tín hiệu rời rạc
Một hệ xử lý tín hiệu sẽ xác lập mối quan hệ nhân quả giữa tín hiệu vào và tín hiệu ra Ta
có thể biểu diễn hệ xử lý bằng mô hình toán học thông qua một phép biến đổi hay mộttoán tử T nào đó Tín hiệu vào x(n) được gọi là tác động, còn tín hiệu ra y(n) được gọi làđáp ứng của hệ xử lý Mối quan hệ giữa tín hiệu vào và tín hiệu ra của hệ có thể đượcbiểu diễn như sau:
Trang 15y(n) = T[x(n)]
Hình 1.5 Mô hình hệ xử lý biến đổi tín hiệu vào x(n) thành tín hiệu ra y(n)
Các hệ xử lý phân thành 2 loại là hệ tuyến tính và hệ phi tuyến Một hệ thống được gọi làtuyến tính nếu nó thoả mãn nguyên lý xếp chồng, tức là thoả mãn 2 tính chất sau:
Tính tỷ lệ:
T[a.x(n)] = a.T[x(n)] = a.y(n)
Tính tổ hợp:
T[x1(n)+x2(n)] = T[x1(n)] + T[x2(n)] = y1(n) + y2(n)
Các hệ tuyến tính có một ý nghĩa đặc biệt trong phân tích và xử lý, vì nó giúp ta đưa việc
xử lý một hệ phức tạp về việc xử lý các hệ đơn giản, sau đó ta chỉ việc tổng hợp lại kếtquả Vì thế ngay cả các hệ phi tuyến nhiều khi cũng được xấp xỉ thành các hệ tuyến tính
để tiện cho việc xử lý
Các hệ tuyến tính cũng được phân thành 2 loại là tuyến tính bất biến và tuyến tính thayđổi theo thời gian Trong xử lý tín hiệu thường chúng ta chỉ quan tâm đến các hệ tuyếntính bất biến Một hệ tuyến tính được gọi là bất biến theo thời gian nếu đáp ứng của hệđối với tác động x(n) thì đáp ứng của hệ đối với tác động x(n-k) sẽ là y(n-k)
Các hệ tuyến tính bất biến được đặc trưng hoàn toàn bằng đáp ứng xung h(n) (là đáp ứng
ra ứng với tác động vào là xung Dirac (n)) Nếu biết h(n) ta hoàn toàn có thể tính đượcđáp ứng y(n) của tín hiệu vào x(n):
x n h n
T [ ]
Đáp ứngTác động
Trang 16Trong xử lý tín hiệu tiếng nói, các hệ thống mà chúng ta quan tâm đều là hệ tuyến tínhbất biến, do đó chúng ta có thể áp dụng các tính chất, kết quả của hệ tuyến tính bất biến
để áp dụng vào việc khảo sát phân tích tín hiệu tiếng nói
2.2 Phép biến đổi Z
Đối với tín hiệu rời rạc, phép biến đổi Z là một công cụ mạnh phục vụ cho việc phân tích
và xử lý tín hiệu Phép biến đổi Z của tín hiệu rời rạc x(n) được định nghĩa như sau:
Trong đó hàm X(z) là hàm biến phức của biến phức z
a Điều kiện hội tụ:
/ 1
m x z
n x
|)(
|lim
1
|
|
|)(
|lim
Tính dịch chuyển theo thời gian:
Giả sử y(n) = x(n – n0) ( dịch chuyển 1 đoạn n0 mẫu)
Khi đó: Y(z) = Z[x(n-n0)] = z -n0 X(z)
Đảo trục thời gian:
Trang 17giả sử Z[x(n)] = X(z) , Rx- < |z| < Rx+
khi đó: Z[x(-n)] = X(1/z) ( với 1/Rx- > |z| > 1/Rx+ )
Thay đổi thang tỷ lệ:
giả sử Z[x(n)] = X(z) , Rx- < |z| < Rx+
Z[an x(n)] = X(z/a) ( với |a|.Rx- < |z| < |a|.Rx+ )
Tổng chập của hai dãy:
Giả sử y(n) là tổng chập của hai dãy h(n) và x(n) tức là:
z X
z Y z
và H(z) được gọi là hàm truyền đạt của hệ thống, nó có một ý nghĩa đặc biệt bởi vì đó làhàm đặc trưng cho sự biến đổi của hệ thống
Như vậy biến đổi Z của đáp ứng xung h(n) là hàm truyền đạt H(z) của hệ thống
3 Mô hình tạo tiếng nói
Tiếng nói là một loại âm thanh, nhưng ngược lại, không phải bất kỳ âm thanh nào cũng làtiếng nói Tiếng nói được phân biệt với các âm thanh khác bởi các đặc tính âm học cónguồn gốc từ cơ chế tạo tiếng nói
Trong quá trình tạo tiếng nói có 2 loại nguồn âm:
Trang 18- Nguồn tuần hoàn: là nguồn tương ứng với các âm mà khi phát ra làm
cho dây thanh rung Trong tiếng Việt nguồn tuần hoàn tương ứng với các nguyên âm vàcác phụ âm hữu thanh
- Nguồn không tuần hoàn (nguồn tạp âm): là nguồn tương ứng với các âm
mà khi phát ra không làm cho dây thanh rung Trong tiếng Việt các nguồn không tuầnhoàn tương ứng với các phụ âm vô thanh
Với nguồn tuần hoàn thì vị trí nguồn tại chính thanh môn, còn nguồn không tuần hoàn thì
có vị trí trong tuyến âm tức là từ thanh môn trở lên cho đến dưới môi
Quá trình tạo tiếng nói từ thanh môn đến tuyến âm đã được Fant (1960) mô hình hoá qua
mô hình sau:
Hình 1.6 Mô hình tạo tiếng nói (Fant – 1960)
Trong mô hình trên, tín hiệu vào của hệ thống là một chuỗi xung đơn vị có chu kỳ T0 Tínhiệu này được cho qua một bộ lọc thông thấp có hàm truyền đạt:
)1
A z
G
Đầu ra của bộ lọc ta được tín hiệu nguồn của hệ thống (cũng là tín hiệu tuần hoàn với chu
kỳ T0) Tín hiệu nguồn sau đó được đưa qua tuyến âm thực chất là một hốc cộng hưởngđược mô hình hoá bằng K mạch cộng hưởng mắc nối tiếp nhau với hàm truyền đạt:
x(n)u(n)
T0
Lọc thông
Tải bức xạ R(z)
T0
Trang 19B z
V
1
2 2
Hình 1.7 Mô hình tạo tiếng nói
Nếu giả thiết là một trong hai điểm cực tại thanh môn bằng -1 ( = -1 ) Khi đó hàm
1
)
1()1
(
)
i
i i k
K k
C B A z
z z
C B A z
T0Tín hiệu nguồn
Trang 20i
p i
i i
Do là hằng số nên dễ thấy T(z) chỉ gồm toàn điểm cực, do đó mô hình trên gọi là mô
hình toàn điểm cực.Việc xác định các hệ số i của bộ lọc đảo sẽ rất quan trọng trong việcxác định các đặc tính của tuyến âm, phương pháp thường dùng để tính toán các hệ số của
bộ lọc đảo là phương pháp tiên đoán tuyến tính, phương pháp này sẽ được trình bày chitiết ở phần sau
Hạn chế của mô hình trên là mô hình chỉ tính đối với khoang miệng, không có khoangmũi, do đó các âm mũi không thể được tạo ra từ mô hình này Để giải quyết hạn chế này,người ta thêm vào thành phần đặc trưng cho khoang mũi Khi đó hàm truyền đạt của hệthống sẽ là:
)(
)(.)()()(
2
2 1
1
z A
z C z
A z A z
A(z)
T0Tín hiệu tiếng
nói tại môi
Trang 21Trong đó thành phần 1( )
1
z A
đặc trưng cho khoang miệng còn thành phần 2( )
2
z A
thì
đặc trưng cho khoang mũi Với việc thêm vào thành phần đặc trưng cho khoang mũi, hệthống không còn là toàn điểm cực (do xuất hiện các điểm không) vì vậy gây khó khăncho việc dùng phương pháp tiên đoán tuyến tính (vì phương pháp này chỉ dùng cho môhình toàn điểm cực) vì vậy thực tế người ta đã thay 1 điểm không thành hai điểm cựctheo phương pháp giảm bậc gần đúng
z
Tín hiệu tiếng nói là tín hiệu tương tự, do đó khi biểu diễn tín hiệu tiếng nói trong môitrường tính toán tín hiệu số, việc biểu diễn và lưu trữ sao cho không bị mất mát thông tin
là vấn đề rất quan trọng trong các hệ thống thông tin sử dụng tiếng nói Việc xem xét cácvấn đề xử lý tín hiệu tiếng nói trong các hệ thống này được dựa trên ba vấn đề chính:
- Biểu diễn tín hiệu tiếng nói dạng số
- Cài đặt các kỹ thuật xử lý tinh vi
- Các lớp ứng dụng dựa trên kỹ thuật xử lý số tín hiệu
Biểu diễn tín hiệu tiếng nói theo dạng số chịu ảnh hưởng quan trọng của lý thuyết lấymẫu, theo đó các trạng thái của tín hiệu có dải tần số giới hạn có thể được biểu diễn dướidạng các mẫu lấy tuần hoàn theo một chu kì cố định được gọi là chu kì lấy mẫu Việc lấymẫu này sẽ cung cấp cho hệ thống những mẫu tín hiệu với tỉ lệ đủ lớn để xử lý Tất cả cácquá trình xử lý lấy mẫu được chỉ rõ trong các tài liệu về xử lý tín hiệu số
Trang 22Hình 1.9 Biểu diễn tín hiệu tiếng nói.
Phương pháp biểu diễn tín hiệu theo dạng sóng, được xem xét đến với việc bảo quảnthông tin theo cách thông thường là giữ nguyên hình dạng sóng của tín hiệu tương ứngkhi đã qua các bước lấy mẫu và lượng tử hoá tín hiệu Còn phương pháp biểu diễn theotham số được xem xét đến trên khía cạnh biểu diễn tín hiệu tiếng nói như là đầu ra của
hệ thống tạo tiếng nói Để thu được các tham số biểu diễn, bước đầu tiên của phươngpháp này lại thường là biểu diễn tín hiệu tiếng nói theo dạng sóng Điều này có nghĩa làtín hiệu tiếng nói được lấy mẫu và lượng tử giống như phương pháp biểu diễn tín hiệutiếng nói dạng sóng, sau đó sẽ tiến hành xử lý để thu được các tham số của tín hiệu tiếngnói của mô hình tạo tiếng nói nêu trên Các tham số của mô hình tạo tiếng nói này thườngđược phân loại thành các tham số kích thích và các tham số của bộ máy phát âm tươngứng
Để áp dụng các phương pháp xử lý tín hiệu số cho tín hiệu tiếng nói chúng ta phải biểu diễn tín hiệu tiếng nói dưới dạng rời rạc Quá trình rời rạc hoá tín hiệu tiếng nói bao gồmcác bước sau:
- Lấy mẫu tín hiệu tiếng nói với tần số lấy mẫu f0
- Lượng tử hoá các mẫu với bước lượng tử q
Các tham số kích thích
Các tham số của
bộ máy phát âm
Trang 234.1 Xác định tần số lấy mẫu tín hiệu tiếng nói.
Khi lấy mẫu một tín hiệu tương tự với tần số lấy mẫu f0, cần đảm bảo rằng việc khôiphục lại tín hiệu đó từ tín hiệu rời rạc tương ứng phải được thực hiện được Shanon đãđưa ra một định lý mà theo đó người ta có thể xác định tần số lấy mẫu đảm bảo yêu cầutrên Theo Shanon, điều kiện cần và đủ để khôi phục lại tín hiệu tương tự từ tín hiệu đãđược rời rạc với tần số lấy mẫu f0 là : f0 Fmax với Fmax là tần số lớn nhất của tín hiệutương tự
Người ta biết rằng phổ của tín hiệu tiếng nói trải rộng trong khoảng 12kHz, do đó theođịnh lý Shanon thì tần số lấy mẫu tối thiểu là 24kHz Với tần số lấy mẫu lớn như thế thìkhối lượng bộ nhớ dành cho việc ghi âm sẽ rất lớn và làm tăng sụ phức tạp trong tínhtoán Nhưng chi phí cho việc xử lý tín hiệu số, bộ lọc, sự truyền và ghi âm có thể giảm đinếu chúng ta chấp nhận giới hạn phổ bằng cách cho tín hiệu qua một bộ lọc tần số thíchhợp Đối với tín hiệu tiếng nói cho điện thoại, người ta thấy rằng tín hiệu tiếng nói vẫnđạt được chất lượng cần thiết khi để mức độ ngữ nghĩa của thông tin vẫn đảm bảo khiphổ được giới hạn ở 3400Hz Khi đó tần số lấy mẫu sẽ là 8000Hz Trong kỹ thuật phântích, tổng hợp hay nhận dạng tiếng nói, tần số lấy mẫu có thể giao động trong khoảng6000-16000Hz Đối với tín hiệu âm thanh(bao gồm cả âm nhạc và tiếng nói) tần số lấymẫu cần thiết là 48kHz
4.2 Lượng tử hoá.
Việc biểu diễn số tín hiệu đòi hỏi lượng tử hoá mỗi mẫu tín hiệu với một giá trị rời rạchữu hạn Mục tiêu của công việc này là hoặc là để truyền tải hoặc là xử lý có hiệu quả.Trong trường hợp thứ nhất, mỗi mẫu tín hiệu được lượng tử hóa, mã hoá rồi truyền đi.Bên thu nhận tín hiệu giải mã và thu được tín hiệu tương tự Tính thống kê của tín hiệuđược bảo toàn sẽ ảnh hưởng quan trọng đến thuật toán lượng tử hoá Trong trường hợp
xử lý tín hiệu, luật lượng tử được quy định bởi hệ thống xử lý, nó có thể được biểu diễnbằng dấu phẩy tĩnh hay dấu phẩy động Việc xử lý bằng dấu phẩy động cho phép cómột sự mềm dẻo cần thiết đối với tín hiệu mặc dù nó đòi hỏi chi phí cao với các tínhtoán việc xử lý bằng dấu phẩy tĩnh đơn giản hơn nhiều nhưng đòi hỏi các điều kiện chặtchẽ đối với các thuật toán xử lý
Trang 244.3 Nén tín hiệu tiếng nói.
Lượng tử hoá tín hiệu gây ra các lỗi thành phần giống nhiễu trắng, như vậy số bướclượng tử là cố định thì tỷ số này là hàm của biên độ tín hiệu, người ta sử dụng luậtlượng tử logarithm và mỗi mẫu tín hiệu được biểu diễn bằng 8 bit Đối với tín hiệu âmthanh kích thước mẫu thường dùng là 16 bit
Một đặc trưng cần thiết của phép biểu diễn tín hiệu số là tốc độ nhị phân tính bằng bit/s
Đó là giá trị quan trọng trong khi thực hiện truyền dữ liệu cũng như lưu trữ dữ liệu.Đường truyền điện thoại có tốc độ 8(kHz)*8(bit)= 64Kb/s Khi thực hiện truyền và ghi lạitín hiệu âm thanh, tốc độ cần thiết là 768kb/s
Ta biết rằng tín hiệu tiếng nói có độ dư thừa rất lớn, do đó có thể giảm tốc độ tín hiệutuỳ thuộc vào mục đích xử lý khi xem xét đến mức độ phức tạp của thuật toán cũng nhưxem xét đến chất lượng của việc biểu diễn tín hiệu tiếng nói Có nhiều kỹ thuật đưa ra đểđạt được mục đích trên Sự lựa chọn một phương pháp biểu diễn số tín hiệu phải thoảmãn giữa các tiêu chuẩn về chất lượng của phép biểu diễn, tốc độ truyền hay lưu trữ vàcuối cùng là các điều kiện môi trường
Thông thường số bit có nghĩa dùng để biểu diễn chuỗi lượng tử cần phải làm giảm bớt
vì lý do kỹ thuật Việc này có thể thực hiệu được bằng cách bỏ đi các bít ít có nghĩanhất, nếu lượng tử là tuyến tính, lỗi lượng tử tăng cùng với khoảng cách giá trị củachuỗi Nhưng đối với một vài ứng dụng, mức lượng tử ở vùng tần số cao có yêu cầu thấphơn so với ở vùng tần số thấp hay ngược lại, trong trường hợp đó cần sử dụng toán tửtuyến tính để biến đổi tín hiệu
5 Tổng quan về mã hoá tiếng nói
Trong một vài thập kỷ vừa qua, đã có rất nhiều kỹ thuật mã hoá nén tiếng nói được đưa
ra, phân tích và phát triển Trong phần này tôi sẽ giới thiệu một số kỹ thuật đang được sửdụng hiện nay, và một số kỹ thuật sẽ được dùng trong tương lai Thông thường thì mãhoá tiếng nói được chia làm hai lớp đó là: mã hoá dạng sóng (waveform coder) và mã hoánguồn (source coder) (hay còn được gọi là mã hoá thông số) Mã hoá dạng sóng được
Trang 25thực hiện ở tốc độ bít cao và cho chất lượng mã hoá tiếng nói tốt Mã hoá nguồn thựchiện ở tốc độ bít thấp, nhưng nó có xu hướng tạo ra tiếng nói có chất lượng nhân tạo.Hiện nay, một lớp mới của mã hoá tiếng nói được gọi là mã hoá lai (hybrid coder), đây là
kỹ thuật mã hoá tổng hợp của phương pháp mã hoá dạng sóng và mã hoá nguồn, nó chochất lượng tiếng nói khá tốt và thực hiện ở tốc độ bít trung bình Hình 1.10 sẽ đưa ra đồthị biểu diễn sự phụ thuộc của chất lượng tiếng nói đối với tốc độ bít của hai lớp chính là
mã hoá dạng sóng và mã hoá nguồn
Trang 26Hình 1.10 Chất lượng tiếng nói theo tốc độ bít
5.1 Mã hóa dạng sóng
Mã hoá dạng sóng nhằm tái tạo lại tín hiệu đầu vào của tiếng nói Nó thường được chiathành các tín hiệu độc lập do vậy nó có thể được dùng để mã hoá rất nhiều loại tín hiệu.Thông thường, đây là phương pháp mã hoá có độ phức tạp thấp tuy nhiên lại cho chấtlượng cao với tốc độ bít cao (lớn hơn khoảng 16kbps) Mã hoá dạng sóng có thể đượcthực hiện trên cả miền tần số cũng như trên miền thời gian
a, Mã hoá trên miền thời gian
Mã hoá trên miền thời gian thực hiện việc mã hóa trên khoảng thời gian lấy mẫu của tínhiệu Các phương pháp mã hoá trong miền thời gian thường được dùng gồm có: Điều chế
mã xung (PCM), điều chế mã xung thích ứng (APCM), điều chế mã xung vi phân(DPCM), điều chế mã xung vi phân thích ứng (ADPCM), điều chế Delta (DM), điều chếDelta thích ứng, và mã hoá dự đoán thích ứng (APC) Tiếp theo ta sẽ xem xét một vàiphương pháp mã hoá quan trọng trong miền thời gian
Mã hoá PCM
Điều chế mã xung là phương pháp đơn giản nhất trong mã hoá dạng sóng Điểm cốt yếucủa phương pháp này chính là quá trình lượng tử hóa Bất cứ dạng lượng tử hoá vô hướngnào cũng có thể được sử dụng trong phương pháp này, nhưng dạng hay được dùng nhất làlượng tử hoá logarit Uỷ ban tư vấn điện thoại và điện báo quốc tế đã giới thiệu G.711như là phương pháp chuẩn cho việc mã hoá tiếng nói thoại Chuẩn G.711 xác định 8 bittheo luật μ và luật A của PCM Mã hoá dùng luật μ có ít lợi thế hơn trong việc thực hiện
vì nó cho tỉ số tín hiệu trên nhiễu bé hơn
Mã hoá DPCM và ADPCM
PCM không giả định về tính tự nhiên của dạng sóng được mã hóa, do đó nó làm việc tốtvới các tín hiệu mà không phải là tiếng nói Tuy nhiên, khi mã hoá tiếng nói thì sẽ có sựtương quan rất lớn giữa các mẫu cạnh nhau Sự tương quan này có thể được sử dụng đểkhôi phục được tốc độ bít của kết quả Một phương pháp đơn giản để thực hiện việc này
Trang 27đó là chỉ truyền sự sai khác giữa các mẫu Tín hiệu khác biệt này sẽ có phạm vi dao độngnhỏ hơn so với tín hiệu tiếng nói ban đầu, do vậy nó có thể lượng tử hoá một cách hiệuquả bằng việc sử dụng các bộ vector lượng tử hoá với mức xây dựng lại thấp hơn Trongphương pháp trên, mẫu trước được sử dụng để dự đoán giá trị của mẫu hiện tại Sự dựđoán này có thể được cải thiện nếu như ta sử dụng một khối lớn hơn của tín hiệu tiếng nóicho việc dự đoán Phương pháp này được gọi là điều chế mã hoá xung vi phân (DPCM).Kiến trúc của nó được đưa ra trong hình vẽ 1.11
Một phiên bản phát triển của DPCM là điều chế mã xung thích ứng ADPCM TrongADPCM, bộ dự đoán và lượng tử hoá được thích ứng với các đặc tính của tín hiệu đầuvào Có một số chuẩn được ITU giới thiệu cho việc mã hoá tín hiệu âm thanh dựa vàogiải thuật ADPCM (với dải thông hẹp khoảng 8kHz) ví dụ như G.726 thực hiện ở các tốc
độ bít 40, 32, 24 và 16 kbps Độ phức tạp của ADPCM là thực sự thấp Mã hoá ADPCM
sẽ cho tín hiệu tín hiệu trên nhiễu cao (vào khoảng 30 đến 35 dB)
Trang 28Hình 1.11: Hệ thống DPCM, khối mã hoá ở bên trái còn khối giải mã bên phải Bộ
lượng tử hoá đảo (inverse quantizer) có nhiệm vụ chuyển các mã đã được truyền thành tín hiệu u(n).
b, Mã hoá trong miền tần số
Mã hoá dạng sóng trong miền tần số chia tín hiệu thành các thành phần tần số khác nhau
và tiến hành mã hoá từng thành thành phần này Số bít sử dụng để mã hoá từng thànhphần tần số có thể thay đổi Mã hoá trong miền tần số được chia ra làm hai nhóm là: mãhoá băng con (subband) và mã hoá biến đổi (transform)
Mã hoá băng con (subband)
Mã hoá băng con sử dụng một số bộ lọc dải thông để chia tín hiệu đầu vào thành các tínhiệu con (subband signal) mà đã được mã hoá Tại bộ thu các tín hiệu con được giải mã
và cộng lại nhằm khôi phục lại tín hiệu ban đầu Ưu điểm chính của phương pháp mã hoábăng con đó là nhiễu lượng tử hoá sinh ra trong một dải tần sẽ bị hạn chế trong chính dảitần đấy Hiệp hội viễn thông quốc tế ITU đã đưa ra chuẩn G.722 trong mã hoá băng con(subband) để truyền thông với các tốc độ 48, 56 hay là 64 kbps
Mã hoá biến đổi (transform)
Kỹ thuật này cần có một khối chuyển đổi của cửa sổ tín hiệu đầu vào thành các thànhphần tần số, hoặc một vài miền tương tự Mã hoá thích ứng sau đó sẽ hoàn thành bằngcách phân bổ thêm bít vào các thành phần hệ số quan trọng hơn Tại bộ thu thì bộ giải mã
sẽ thực hiện việc chuyển đổi ngược để thu lại tín hiệu cần khôi phục Ta có thể sử dụngmột số phép biến đổi như: phép biến đổi Fourier rời rạc (DFT) hay là phép biến đổicosine rời rạc (DCT)
5.2 Mã hoá nguồn
Mã hoá nguồn sử dụng một mô hình trong đó chỉ ra quá trình làm thế nào để phát sinh ranguồn, và quá trình phân tích từ tín hiệu được mã hoá các thông số của mô hình Cácthông số này sẽ được truyền tới bộ giải mã Mã hoá nguồn sử dụng cho tiếng nói đượcgọi là vocoder (viết tắt của mã hoá tiếng nói - vocal coder), và nó sử dụng một mô hình
Trang 29lọc nguồn như trong hình vẽ 1.12 Mô hình này thừa nhận là tiếng nói được tạo ra bằngcách kích thích bộ lọc tuyến tính bằng một tín hiệu nhiễu trắng đối với các tín hiệu vôthanh, hoặc là một chuỗi các xung tín hiệu giọng nói Bộ mã hoá nguồn hoạt động với tốc
độ bít ở khoảng 2kbps hoặc bé hơn
Dựa vào các phương thức phân tích thông số mô hình, một vài kiểu mã hoá nguồn đãđược phát triển ví dụ như viz, mã hoá kênh, mã hoá đồng hình, mã hoá formant và mãhoá dự đoán tuyến tính Việc sử dụng bộ lọc này tương tự với nguyên lý của mã hoá dựđoán tuyến tính (LPC)
Hình 1.12 Mô hình tạo tiếng nói được sử dụng bởi mã hoá nguồn
5.3 Mã hoá lai
Mã hoá lai (hybrid coder) là phương pháp tổng hợp giữa phương pháp mã hóa dạng sóng
và mã hoá nguồn, nhằm khắc phục các nhược điểm của hai phương pháp trên Như ta đãnói thì mã hóa dạng sóng sẽ cho chất lượng tốt với tốc độ bít vào khoảng 16kbps, trongkhi đó mã hoá nguồn được thực hiện ở một tốc độ bít rất thấp (vào khoảng 2.4 kbps)nhưng không thể đưa ra chất lượng tự nhiên Mặc dù còn có một số dạng mã hóa lai kháccòn tồn tại, tuy nhiên phương pháp thành công nhất và được sử dụng rộng rãi đó làphương pháp mã hoá trong miền tần số Analysys - by – Synthesis (AbS) Phương phápnày cũng sử dụng mô hình lọc dự đoán tuyến tính Tuy nhiên, thay vì áp dụng mô hình
Trang 30đơn giản gồm có hai trạng thái là hữu thanh/vô thanh (voiced / unvoiced) để tìm đầu vàocần thiết cho bộ lọc, thì tín hiệu kích thích được chọn sao cho tín hiệu được khôi phụcgần với tín hiệu ban đầu Một mô hình chung của mã hóa AbS được đưa ra trong hình vẽ1.13 AbS được giới thiệu lần đầu tiên vào năm 1982 bởi Atal và Remde, và ban đầu nóđược gọi là mã hóa kích thích đa xung (MPE), và sau đó thì RPE và CELP lần lượt đượcđưa ra Nhiều bản CELP khác nhau đã được chuẩn hoá, gồm có G.723.1 hoạt động ở tốc
độ bít là 6.3/5.3 kbps, G.729 ở 8 kbps, G.728 ở 16 kbps và tất cả các chuẩn mã hoá mạngthoại di động như GSM, IS – 54, IS – 95, IS – 136
Hình 1.13 Kiến trúc của mã hoá AbS (a): Mã hoá (b): Giải mã.
Trang 316 Tổng quan về tổng hợp tiếng nói
6.1 Giới thiệu chung
Tổng hợp tiếng nói là quá trình tạo tiếng nói xuất phát từ biểu diễn ngữ âm của lời nói và
cơ chế sản sinh ra tiếng nói.Trong đó các kỹ thuật tổng hợp tiếng nói được chia thành 2loại chính :
Tổng hợp tiếng nói trực tiếp : là phương pháp tổng hợp dựa trên sự ghép
nối các âm đã được ghi từ trước
Đặc điểm của phương pháp này là có sự tham gia của con người Đây là cách dễ nhất đểtạo tiếng nói tuy nhiên nó yêu cầu số lượng lời nói ghi âm phải lớn do đó phải cần nhiều
bộ nhớ để lưu trữ các lời nói này
Đơn vị ghi âm tối thiểu là các âm vị (hệ thống các nguyên âm và phụ âm), từ các âm vị
có thể tổng hợp thành các âm tiết ( tổ hợp các âm vị) và cao hơn là có thể tổng hợp thànhcác từ, câu Để giảm khối lượng từ cần lưu trữ, người ta thường dùng các âm vị kép(diphone : gồm hai âm vị đi với nhau) để tổng hợp tiếng nói
Tổng hợp dựa trên mô hình : là các phương pháp tổng hợp dưạ trên các mô
hình toán học và không có sự tham gia của con người Các phương pháp hay dùng baogồm:
- Tổng hợp formant: phương pháp này dựa trên các luật xác định tần
số cơ bản để tính ra 3 formant đầu tiên f1, f2, f3 để tổng hợp tiếng nói
- Tổng hợp LPC: đây là phương pháp dựa trên mô hình tiên đoán
tuyến tính, tức là tín hiệu tiếng nói tại thời điểm n có thể xác định dựa trên tổ hợp tuyếntính của p tín hiệu trước đó
- Tổng hợp dùng mô phỏng bộ máy phát âm: phương pháp này thực
hiện bằng cách mô phỏng bộ máy phát âm của con người, do đó nó có thể có chất lượngtốt nhất nhưng nhược điểm là độ phức tạp rất cao và khó thực hiện
Trang 326.2 Các mô hình tổng hợp tiếng nói
a, Tổng hợp formant
Hình 1.14 Mô hình tổng hợp tiếng nói bằng phương pháp formant
Chức năng của từng khối :
Khối tạo xung: khối này dùng để tạo tín hiệu tuần hoàn
Khối tạo tạp âm: khối này dùng để tạo tín hiệu không tuần hoàn (các nhiễungẫu nhiên)
Các khối A1, A2, A3, A4: là các khối thay đổi biên độ dùng để tăng giảmbiên độ tới âm lượng mong muốn
Khoang miệng đặc trưng bởi các mạch cộng hưởng có tần số F1, F2, F3
Kênh mũi: tương ứng với các phản formant
B1, B2, B3: là các dải tần khác nhau
Chất lượng của phương pháp này phụ thuộc vào sự điều chỉnh các tham số điều khiển vànghe tín hiệu tạo ra do đó không được tự động hoá 100%
Trang 33b, Tổng hợp LPC
Hình 1.15 Mô hình tổng hợp tiếng nói bằng phương pháp LPC
Chức năng từng khối :
Khối tạo xung: khối này dùng để tạo các tín hiệu tuần hoàn
Khối tạo tạp âm: khối này dùng để tạo các tín hiệu không tuần hoàn
Khối A: là khối thay đổi biên độ
Bộ lọc bậc p xác định các tham số a1 ap theo tiêu chí tối thiểu hoá bìnhphương toàn phần của lỗi tiên đoán tuyến tính
Phương pháp này được thực hiện tự động 100% do có tiêu chí xác định các hệ số ai Tuynhiên nhược điểm của phương pháp này là chất lượng tổng hợp âm mũi kém do LPC chỉdựa trên mô hình toàn điểm cực, không có điểm không (tức là chỉ có khoang miệng màkhông có khoang mũi), do đó chỉ áp dụng với khoang miệng
c, Tổng hợp dùng mô phỏng bộ máy phát âm
Hình 1.16 Mô hình tổng hợp tiếng nói bằng phương pháp mô
phỏng nguồn âm.
Trang 34Phương pháp này thực chất là mô phỏng nguồn âm, tuyến âm và nguồn tạp âm đơn giản.
Mô phỏng nguồn âm (nguồn tuần hoàn): là quá trình mô phỏng hoạt động của dây thanh.
Các phương pháp mô phỏng dây thanh thường dùng là mô hình một khối, mô hình haikhối, mô hình nhiều khối, mô hình dầm,…
Mô phỏng tuyến âm: thực chất là mô phỏng bộ máy phát âm từ thanh môn trở lên Tuyến
âm được mô phỏng bằng cách rời rạc hoá, thay thế từng đoạn tuyến âm bởi các ống cơbản có chiều dài ngắn (các ống hình trụ) và sau đó thực hiện tính toán trên các ống này
Trang 35Chương 2 Ứng dụng của LPC trong xử lý
tiếng nói
7 Phương pháp dự đoán tuyến tính trong xử lý tiếng nói
Một trong những công cụ mạnh được sử dụng trong việc phân tích tiếng nói là phươngpháp phân tích dự đoán tuyến tính Phương pháp này vẫn là kỹ thuật chiếm ưu thế trongviệc dò tìm các tham số cơ bản của tiếng nói như: tần số cơ bản, các formant, phổ tínhiệu, các hàm truyền đạt của bộ máy phát âm cũng như trong việc biểu diễn tín hiệu tiếngnói, truyền và lưu trữ ở tốc độ dữ liệu thấp Phương pháp này rất quan trọng bởi lẽ nócung cấp công cụ dò tìm một cách hoàn toàn đúng đắn và tốc độ tính toán nhanh
Nguồn gốc cơ bản của phương pháp này là các mẫu tín hiệu tiếng nói có thể được xấp xỉhoá như là tổ hợp tuyến tính của một số mẫu quá khứ Bằng cách tối thiểu hoá tổng củacác bình phương phương sai (trong một khoảng thời gian xác định) giữa các mẫu hiện tạicủa tín hiệu tiếng nói và mẫu tiên đoán tuyến tính ta có để thu được một tập hợp cáctham số dự đoán
Nguyên lý cơ bản của phương pháp dự đoán tuyến tính liên hệ mật thiết với mô hình tổnghợp tiếng nói, trong đó chỉ ra rằng tín hiệu tiếng nói có thể được coi như là kết quả đầu
ra của hệ tuyến tính biến đổi theo thời gian và được kích thích bởi các xung tuần hoàn(các âm hữu thanh) hay là các nhiễu ngẫu nhiên (các âm vô thanh)
Dựa vào phương pháp tiên đoán tuyến tính người ta đã áp dụng nó cho nhiều cách thứckhác nhau tuỳ vào mô hình sóng tín hiệu tiếng nói Sự khác biệt của các cách thức này làcách nhìn vấn đề theo hướng khác nhau Sau đây là một số cách thức:
Phương pháp hiệp phương sai
Phương pháp tự tương quan
Phương pháp rào
Phương pháp bộ lọc đảo
Phương pháp dò phổ
Trang 36 Phương pháp khả năng cực đại
Phương pháp dẫn xuất nội bộ
Như trong mô hình trên của mô hình tạo tiếng nói cùng với những tham số cần phải xácđịnh của nó, trong đó tín hiệu dự đoán được biểu diễn bằng:
s
1
^
)()
s n n
s n
1
^
)()
()()()
k
k z a z
A
1
1)
(
(2.3)
Trang 37Bằng cách so sánh (2.1) và (2.3) ta thấy, nếu tín hiệu tiếng nói tuân theo mô hình củacông thức (2.2) và nếu ki = ai thì e(n) = Gu(n) Hơn nữa bộ lọc sai số dự đoán A(z) sẽ làmột bộ lọc đảo cho hệ thống H(z) Như vậy ta có :
)()
(
z A
G z
(2.4)
Bài toán cơ bản của phân tích tiên đoán tuyến tính là để xác định tập hợp các hệ số tiênđoán {ai} trực tiếp từ tín hiệu tiếng nói Bởi vì bản chất thay đổi theo thời gian của tínhiệu tiếng nói nên các hệ số tiên đoán phải được tính trong các đoạn ngắn tín hiệu Cáchtiếp cận cơ bản là tìm một tập các hệ số tiên đoán mà sai số tiên đoán là nhỏ nhất đối vớimột đoạn ngắn tín hiệu
Với cách tiếp cận trên sẽ hướng đến một vài kết quả hữu ích mà có thể không được quansát thấy ngay lập tức, nhưng có thể điều chỉnh bằng nhiều cách Đầu tiên, nhớ lại rằngnếu ak = k thì e(n) = Gu(n) Đối với âm hữu thanh, nó có nghĩa rằng e(n) sẽ bao gồm mộtchuỗi các xung ; ví dụ, e(n) sẽ trở nên nhỏ trong phần lớn thời gian Do đó, việc tìm các
k mà tối thiểu hoá sai số tiên đoán phù hợp với nhận xét này Thứ hai, dựa vào thực tế lànếu tín hiệu được sinh ra bởi công thức (2.1) với không có sự biến đổi về thời gian củacác hệ số và được kích thích bằng cách một xung đơn lẻ hay một chuỗi nhiễu trắng khôngthay đổi, thì nó có thể thấy rằng các hệ số dự đoán có kết quả từ việc tối thiểu hoá bìnhphương sai số tiên đoán giống với hệ số của công thức (2.1) Cuối cùng, sự điều chỉnh rấthợp lý cho việc tối thiểu hoá sai số bình phương trung bình, sai số tiên đoán như là cơ sởcho việc xác định các tham số của mô hình là cách tiếp cận hướng đến tập của các côngthức tuyến tính có thể được tìm thấy hiệu quả để nhận được các tham số tiên đoán Quantrọng hơn, các tham số thu được rất hữu ích và biểu diễn chính xác tín hiệu tiếng nói.Sai số tiên đoán trung bình thời gian ngắn được định nghĩa như sau :
Trang 38
m
n m e
1
](
)(
m s i m s m
s i m
n n
k m
()(')
()(
1
,
2,1)
0,(),(
(2.10)
Trang 39Tập k biểu thức trong p không biết được tìm thấy trong một cách hiệu quả đối với hệ số tiên đoán không biết { k } mà tối thiểu hoá sai số tiên đoán trong đoạn sn(m) Sử dụng công thức (2.7) và công thức (2.8), ta có :
E
1
),0()
0,0
(2.12)
Hơn nữa, tổng sai số nhỏ nhất bao gồm các thành phần cố định, và một thành phần phụthuộc vào hệ số tiên đoán Để tìm được hệ số tiên đoán tối ưu, đầu tiên phải tính sốlượng Rn(i,k) với 1 i p và 0 k p Một khi tìm được rồi, chúng ta chỉ cần dùngcông thức (2.10) để nhận được k
a, Phương pháp tự tương quan
Một cách tiếp cận để xác định hạn chế của tổng trong công thức (2.5) –(2.7) và côngthức (2.8) là giá sử đoạn tín hiệu sn(m) có giá trị bằng 0 ngoài khoảng (0,N-1) Như thế
có thể viết :
Trong đó w(m) cửa số có chiều dài hữu hạn(ví dụ cửa số Hamming)
Rõ rằng rằng, nếu sn(m) không bằng 0 không chỉ với m trong (0, N-1), thì sai số tiên đoántương ứng en(m) cho bậc dự đoán thứ p sẽ khác không ngoài đoạn (0,N-1+p) Hơn nữa,trong trường hợp này En có thể được viết nhanh như sau:
Trang 401 0
2 m e
m n
m N+p-1) bởi vì chúng ta thử dự đoán không từ các mẫu mà không bằng không Vì lý
do này, một cửa sổ có hình búp được áp dụng
Bởi vì sn(m) có giá trị không ngoài đoạn (0, N-1) nên từ (2.9) dễ dàng thấy :
p k
p i k
m s i m s k
i
m
n n
p i k
i m s i m s k
)()
n
n m s m k s
k
0
)()()
(
(2.16)
Vì thế công thức (2.10) được viết như sau :
p i i
R k i
(
|)(|
1
(2.17)