Kĩ thuật mã hoá tiếng nói dự đoán tuyến tính phân tích nhờ tổng hợp
Trang 1Lời nói đầu
Mặc dù với sự phát triển của công nghệ truyền thông qua cáp quang làm cho băng thông không còn là vấn đề lớn trong giá thành của các cuộc gọi truyền thống Tuy nhiên , băng thông trong các cuộc gọi đường dài , các cuộc gọi quốc
tế , các cuộc gọi qua vệ tinh hay các cuộc gọi di động thi cần phải duy trì băng thông ở một mức nhất định Vì vậy việc mã hoá tiếng nói là rất cần thiết , giúp giảm thiểu số lượng tín hiệu cần truyền trên đường truyền nhưng vẫn đảm bảo chất lượng cuộc gọi
Vì vậy , mục đích của đề tài là nghiên cứu một trong các kĩ thuật mã hoá tiếng nói hiện đang được sử dụng chủ yếu là kĩ thuật mã hoá tiếng nói dự đoán tuyến tính phân tích nhờ tổng hợp
Sau một thời gian được sự hướng dẫn tận tình của cô: Đoàn Thanh Hải bộ
môn Điện tử Viễn thông, đồng thời vận dụng những kiến thức đã học ở lớp , thông qua bạn bè và tài liệu tham khảo đến nay đề tài này đã hoàn thành
Do vấn đề nghiên cứu còn rộng và bản thân còn nhiều hạn chế nên trong đề tài không tránh khỏi những thiếu sót hoặc thiếu chính xác Rất mong nhận được
sự đóng góp của các thầy giáo, cô giáo và các bạn để đề tài thực sự có chất lượng hơn
Chúng em rất cảm ơn tới cô: Đoàn Thanh Hải bộ môn Điện tử viễn thông,
đã giảng dạy và hướng dẫn chúng em hoàn thành đề tài này
Sinh viên thực hiện
Cao Tiến Việt
Trang 2Nội dung
1 Giới thiệu về õm thanh, tiếng núi và đặc điểm
1.1 Đặc điểm vật lý của õm thanh
1.2 Đặc điểm õm học của õm thanh , tiếng núi
1.3 Phõn loại đơn giản dạng súng tiếng núi
2 Cỏc đặc trưng của tớn hiệu tiếng núi
2.1 Dạng súng tớn hiệu tiếng núi
2.2 Phõn bố biờn độ khụng đồng đều
2.3 Tương quan giữa cỏc phần tử rời rạc
2.4 Tớnh tuần hoàn của tớn hiệu tiếng núi
2.5 Tớnh khụng hữu hiệu của tớn hiệu tiếng núi
2.6 Phổ trung bỡnh của tớn hiệu tiếng núi
2.7 Phổ thức thời của tớn hiệu tiếng núi
3 Kờnh thoại và cỏc phương phỏp mó hoỏ tiếng núi
4 Thụng tin bằng tiếng núi
4.1 Mụ hỡnh quỏ trỡnh tạo tiếng núi
4.2 Mụ hỡnh húa bộ mỏy phỏt thanh của con người
4.3 Mụ hỡnh tổng quỏt của mó hoỏ tiếng núi theo phương phỏp phõn tớch bằng tổng hợp
4.4 Nguyờn lý chung của bộ mó hoỏ CELP( Code Excited Linear
Prediction)
5 Kết luận
Trang 31 Giới thiệu về õm thanh, tiếng núi và đặc điểm
1.1.1 Đặc điểm vật lý của õm thanh
Bản chất õm thanh tiếng núi là súng cơ học nờn nú cú cỏc tớnh chất cơ bản của súng cơ học
nhận dạng tiếng nói Sản xuất tiếng nói
Tạo thông điệp Mã ngôn ngữ
Các lệnh thần kinh vận động ống dẫn
âm Dây thanh
Hiểu thông điệp Mã ngôn ngữ
Qúa trình thần kinh Tai
trong sóng âm
thanh
Hỡnh 1.1 Sơ đồ biểu diễn quỏ trỡnh sản xuất và thu nhận tiếng núi của con
người
Hỡnh 1.1 đưa ra một sơ đồ khối của quỏ trỡnh sản xuất tiếng núi/nhận thức tiếng núi của con người Quỏ trỡnh sản xuất tiếng núi bắt đầu khi người núi tạo ra một thụng điệp (trong ý nghĩ của anh ta) và muốn chuyển tải nú cho người nghe thụng qua tiếng núi Tổ chức thần kinh tương ứng chịu trỏch nhiệm tạo ra thụng điệp dưới dạng văn bản biểu diễn cỏc từ của thụng điệp Bước tiếp theo của quỏ trỡnh là chuyển đổi thụng điệp sang dạng một mó ngụn ngữ Điều này gần như tương đương với việc chuyển đổi cỏc biểu diễn văn bản của thụng điệp thành một chuỗi cỏc õm vị tương ứng với những õm thanh tạo nờn cỏc từ; đồng thời với việc ghi nhận õm điệu nhằm xỏc định sự kộo dài, sự nhấn mạnh, và trọng õm
cao thấp của õm thanh Khi một mó ngụn ngữ đó được lựa chọn, người núi phải
thực hiện một loạt cỏc lệnh thần kinh vận động để làm cho cỏc dõy thanh dao động, đồng thời cấu trỳc hỡnh dạng ống dẫn õm nhằm phỏt ra một chuỗi cỏc õm
Trang 4thanh Như vậy, đầu ra cuối cùng của quá trình là một tín hiệu âm học Các lệnh thần kinh vận động phải điều khiển một cách đồng bộ tất cả các khâu vận động như sự hoạt động của môi, hàm, lưỡi
Khi tín hiệu tiếng nói đã được sinh ra và được truyền cho người nghe, quá trình thu nhận tiếng nói bắt đầu Đầu tiên, người nghe xử lý tín hiệu âm thanh thông qua màng nền của tai trong; nó có khả năng cung cấp một phân tích phổ cho tín hiệu tới Một quá trình xử lý thần kinh chuyển đổi tín hiệu phổ tại đầu ra của màng nền thành các tín hiệu hoạt động đối với thần kinh thính giác; có thể coi đây như một quá trình lấy ra các đặc trưng Bằng một phương pháp đặc biệt (chưa được hiểu một cách thấu đáo), các tín hiệu hoạt động đi qua hệ thần kinh thính giác được chuyển đổi thành một mã ngôn ngữ cho những trung tâm xử lý cao cấp hơn bên trong bộ não; và cuối cùng là việc hiểu được nội dung thông điệp
Qua đó ta thấy tín hiệu âm thanh tiếng nói là tín hiệu ngẫu nhiên không dừng, tuy nhiên những đặc tính của nó là tương đối ổn định khi xét trong một khoảng thời gian ngắn(vài chục mili giây) Trong khoảng thời gian đó tín hiệu gần như tuần hoàn Âm thanh tiếng nói con người có các đặc tính vật lý sau đây:
• Cường độ
Cường độ chính là độ to nhỏ của âm thanh Cường độ càng lớn thì âm thanh có thể truyền đi được càng xa Xét trên phương diện sóng cơ học thì cường
Trang 5độ chính là biên độ của dao động sóng âm, nó quyết định năng lượng của sóng
âm
Trong tiếng nói cường độ của nguyên âm phát ra thường lớn hơn của phụ
âm Do vậy chúng ta thường dễ phát hiện ra nguyên âm hơn là phụ âm
Đối với tai người, giá trị tuyệt đối của cường độ âm I thường không quan trọng mà người ta quan tâm giá trị tỷ số của I so với một giá trị chuẩn I0 nào đó,
đó chính là mức cường độ âm và được tính như sau:
L(B) = lg(I/I0)
• Trường độ
Trường độ hay độ dài của âm phụ thuộc vào sự chấn động lâu hay nhanh của các phần tử không khí Cùng một âm nhưng trong các từ khác nhau thì độ dài khác nhau
• Âm sắc
Âm sắc là bản sắc, sắc thái riêng của âm Cùng một nội dung, độ cao nhưng khi nói mỗi người có một âm vị khác nhau
1.1.2 Đặc tính âm học của âm thanh, tiếng nói
Tín hiệu tiếng nói là tín hiệu tương tự, biểu diễn cho thông tin về mặt ngôn ngữ và được thể hiện bằng các âm vị khác nhau Số lượng các âm vị tuỳ thuộc vào từng ngôn ngữ, vào khoảng 20 đến 30 và không vượt quá 50 Đối với từng loại âm vị nó có đặc tính âm thanh khác nhau Các âm vị được chia thành hai loại là nguyên âm và phụ âm
Tổ hợp các âm vị tạo nên âm tiết Âm tiết đóng vai trò một từ chọn vẹn mang ngữ nghĩa
• Nguyên âm
Các nguyên âm có thể được coi là lớp thú vị nhất trong các lớp âm thanh tiếng nói, đặc biệt đối với Tiếng Anh Tầm quan trọng của chúng trong lĩnh vực nhận dạng tiếng nói là rất lớn; hầu hết các hệ thống nhận dạng dựa trên cơ sở nhận dạng nguyên âm đều có tính năng tốt
Trang 6Trong khi nói, nguyên âm được tạo ra bằng cách kích thích một ống dẫn
âm thanh có hình dạng cố định bằng các xung áp lực khí giả tuần hoàn do sự rung động của dây thanh sinh ra Hình dạng của từng vùng cục bộ dọc theo ống dẫn âm xác định các tần số cộng hưởng (các formants) và âm thanh sẽ được tạo
ra Việc tạo ra nguyên âm cụ thể nào là được quyết định bởi vị trí của lưỡi, hàm, môi Các nguyên âm nói chung là có thời gian tồn tại dài (so với các phụ âm)
và dễ xác định phổ Chính vì thế mà sẽ dễ dàng cho việc nhận dạng, cả đối với con người và máy móc
Có một số cách biểu diễn đặc trưng nguyên âm, bao gồm cấu hình khoang miệng, các đồ thị dạng sóng tín hiệu và các đồ thị phổ ở đây chúng ta chỉ quan tâm tới dạng biểu diễn đồ thị phổ Về mặt lý thuyết, các cực đại của biểu diễn phổ của tín hiệu nguyên âm chính là các tần số cộng hưởng (formants) tạo nên nguyên âm Giá trị của các các formant đầu tiên (2 hoặc 3 formants đầu tiên) là yếu tố quyết định cho phép chúng ta nhận dạng được nguyên âm Do nhiều yếu
tố biến thiên như sự khác nhau về giới tính, về độ tuổi, tình trạng tinh thần của người nói và nhiều yếu tố ngoại cảnh khác, đối với một nguyên âm xác định các giá trị formant cũng có một sự biến thiên nhất định Tuy nhiên sự khác biệt về giá trị các fornants giữa các nguyên âm khác nhau lớn hơn nhiều; và trong không gian formant chúng ta có thể xác định một cách tương đối các vùng riêng biệt cho từng nguyên âm Hình 1.2 minh họa một đồ thị kinh điển của các giá trị formant đầu tiên và thứ hai của 10 nguyên âm cùng với sự phân vùng cho các nguyên âm ở đây chúng ta cũng thấy có những sự nhập nhằng trong phát âm thể hiện ở một số chỗ chồng chéo lên nhau giữa các vùng
Trang 7i I ε ae ε
Λ
a c
u U
0 200 400 600 800 1000 1200 1400
1000 1500 2000 2500 3000 3500 4000
Hình 1.2 Đồ thị theo các formant F1, F2 cho 10 nguyên âm
được thực hiện với nhiều đối tượng người nói khác nhau
• Phụ âm
Phụ âm được tạo ra bởi các dòng khí hỗn loạn được phát ra gần những điểm co thắt của đường dẫn âm thanh do cách phát âm tạo thành Dòng không khí tại chỗ đóng của vòm miệng tạo ra phụ âm bật Những phụ ân xát được tạo
ra từ chỗ co thắt lớn nhất và các âm tắc xát được tạo ra từ khoảng giữa Phụ âm
có đặc tính hữu thanh và vô thanh tuỳ thuộc vào dây thanh có dao động để trở thành cộng hưởng hay không Đặc tính của phụ âm tuỳ thuộc vào tính chu kỳ của dạng sóng, phổ tần số, thời gian tồn tại và sự chuyển dẫn âm
• Tỷ suất thời gian
Trong khi nói chuyện, các khoảng nói chuyện và khoảng nghỉ xen kẽ nhau Phần trăm thời gian nói trên tổng thời gian nói và nghỉ được gọi là tỷ suất thời gian Giá trị này biến đổi tuỳ thuộc vào tốc độ nói và từ đó ta có thể phân loại thành nói nhanh, nói chậm hay trung bình
• Hàm năng lượng thời gian ngắn
Hàm năng lượng thời gian ngắn được tính bằng cách chia tín hiệu tiếng nói thành nhiều khung có chứa N mẫu và tính diện tích trung bình của tổng các
Trang 8mẫu tín hiệu trong mỗi khung Các khung này được đưa qua một cửa sổ có dạng như sau:
W n
W
0
0 )
( )
* ) (
N n
E
Hàm năng lượng thời gian ngắn cho âm hữu thanh thường lớn hơn âm vô thanh
• Tần số vượt điểm không
Tần xuất vượt qua điểm không là số lần biên độ tín hiệu tiếng nói vượt qua giá trị không trong một khoảng thời gian cho trước Thông thường giá trị này đối với âm vô thanh lớn hơn âm hữu thanh do đặc tính ngẫu nhiên của âm
vô thanh Do đó tần suất vượt qua điểm không là tham số quan trọng để phân loại âm vô thanh và âm hữu thanh
• Phát hiện điểm cuối
Trong sử lý tín hiệu tiếng nói, việc xác định khi nào bắt đầu và kết thúc quá trình nói là một công việc hết sức quan trọng Trong một môi trường có nhiều tiếng ồn và môi trường có nhiều người nói thì việc phát hiện điểm cuối là hết sức khó khăn Đã có một số phương pháp để phát hiện điểm cuối của tiếng nói
• Tần số cơ bản
Dạng sóng của tiếng nói bao gồm hai phần: Phần giống nhiễu trong đó biên độ thay đổi ngẫu nhiên và phần tuần hoàn Phần tín hiệu có tính chất chu kỳ
Trang 9có chứa các thành phần tần số có dạng điều hoà Tần số thấp nhất là tần số cơ bản và chính là tần số dao động của dây thanh Đối với những người nói khác nhau thì tần số cơ bản cũng khác nhau và tần số cơ bản của trẻ em thường cao hơn của người lớn và của nữ giới thì cao hơn của nam giới
Bảng 1: Một số giá trị của tần số cơ bản ứng với giới tính và tuổi
Người nói Giá trị tần số cơ bản Nam 80-200
Nữ 150-450
Đối với hai âm có cùng cường độ, cùng độ cao sẽ được phân biệt bởi tính tuần hoàn Một âm hữu thanh có tín hiệu gần như tuần hoàn, khi được phân tích phổ sẽ xuất hiện một vạch tại vùng tần số rất thấp Vạch này đặc trưng cho tính tuần hoàn cơ bản hay đó chính là tần số cơ bản của âm trong khi giao tiếp bình thường tần số cơ bản thay đổi liên tục tạo nên ngữ điệu cho tiếng nói
• Formant
Trong phổ tần số của tín hiệu tiếng nói, mỗi đỉnh có biên dộ cao nhất xét trong một khoảng nào đó(còn được gọi là cực trị địa phương) xác định một formant Ngoài tần số, formant còn được xác định bởi biên độ và dải thông của chúng Về mặt vật lý, các tần số formant tương ứng với các tần số cộng hưởng của tuyến âm trong xử lý tiếng nói, để mô phỏng lại tuyến âm người ta phải xác định được tham số formant đối với từng loại âm vị Do đó việc đánh giá và ước tính formant là rất quan trọng
Tần số formant biến đổi trong một khoảng rộng phụ thuộc vào giới tính của người nói và phụ thuộc vào âm vị tương ứng với formant đó Đồng thời formant còn phụ thuộc vào âm vị trước và sau đó Về cấu trúc tự nhiên, tần số formant có liên hệ chặt chẽ với hình dạng và kích thước của tuyến âm , thông thường trong phổ tần số của tín hiệu có khoảng 6 formant, nhưng chỉ có 3
Trang 10formant đầu tiên là ảnh hưởng quan trọng đến đặc tính âm vị Các formant có giá trị trong khoảng từ vài trăm đến vài nghìn Hz
Tần số formant đặc trưng cho các nguyên âm biến đổi tuỳ thuộc vào người nói trong điều kiện phát âm nhất định Mặc dù phạm vi của các tần số formant tương ứng với mỗi nguyên âm có thể trùng lên nhau, nhưng vị trí giữa formant là không đổi và sự xê dịch các formant là song song
Ngoài formant, các âm mũi còn có các tần số bị suy giảm gọi là phản formant (anti-formant) Phản formant được tạo nên khi luồng khí đi qua khoang mũi Các formant tương ứng với các điểm cực của hàm truyền đạt vì tại lân cận các điểm cực trị giá trị của hàm truyền đạt là rất lớn, tương tự các phản formant tương ứng với các điểm không của hàm truyền đạt
1.1.3 Phân loại đơn giản dạng sóng tiếng nói
Tiếng nói của con người tạo ra bao gồm hai thành phần:
• Phần gần tuần hoàn mà hầu như lặp lại cùng chu kỳ được gọi là tiếng
chính là F0 Âm hữu thanh được phát ra bởi một luồng khí cực mạnh từ thanh môn thổi qua dây thanh làn rung dây thanh, sự dao động của dây thanh tạo nên nguồn tuần hoàn Nguồn tuần hoàn kích thích tuyến âm tạo nên âm hữu thanh Vùng âm hữu thanh chiếm thành phần chủ yếu của sóng tiếng nói, chứa đựng lượng tin nhiều nhất và thời gian lớn nhất trong quá trình nói
Phần tín hiệu có dạng gần giống như tạp âm nhiễu có biên độ ngẫu nhiên
gọi là âm vô thanh Tiếng nói vô thanh được tạo ra do sự co thắt theo một dạng
nào đó của tuyến âm và luồng khí chạy qua chỗ thắt với tốc độ lớn tạo nên nhiễu loạn, ví dụ như khi ta nói thì thào Năng lượng của nguồn nhiễu loạn tạo nên sẽ kích thích tuyến âm tạo nên âm vô thanh, năng lượng của tiếng nói vô thanh nhỏ hơn so với năng lượng của tiếng nói hữu thanh Ta có thể phát hiện ra tiếng nói hữu thanh là khi dây thanh rung còn âm vô thanh khi nói dây thanh không rung Khi nói thì thào thì ở xa không nghe thấy được vì đó là âm vô thanh
Trang 112 Các Đặc trưng của tín hiệu tiếng nói
2.1 Dạng sóng tín hiệu tiếng nói
Tín hiệu có được từ đầu ra của micro (áp suất sóng âm → micro → tín hiệu điện)
Hình 1.3: Dạng sóng tín hiệu tiếng nói Biên độ phụ âm nhỏ hơn nhiều so với biên độ nguyên âm, phần nguyên
âm biểu diễn tín hiệu tuần hoàn
5.1 Phân bố biên độ không đồng đều
Mật độ xác suất của tín hiệu nói như hình sau:
Hình 1.4: Mật độ xác suất của tín hiệu tiếng nói
Biên độ bé thì xác suất càng lớn và ngược lại Qui luật giảm xác suất theo biên độ không phải là hàm tuyến tính
5.2 Tương quan giữa các phần tử rời rạc
Hệ số tương quan cao cỡ 0,85 Thực tế nếu lấy mẫu tín hiệu tiếng nói với tần số 8KHz thì còn có sự tương quan đáng kể giữa các mẫu cạnh nhau, hiển nhiên là với tần số lấy mẫu càng lớn thì sự tương quan giữa các phần tử cạnh nhau càng tăng
Trang 125.3 Tính tuần hoàn của tín hiệu tiếng nói
Tiếng nói có thể được tạo nên từ dao động của một vài tần số trong phạm
vi tần gọi là tần số cơ bản, như vậy có sự liên quan của tín hiệu và các tần số cơ bản Tính chất tuần hoàn của các nguyên âm và các phụ âm hữu thanh được thể hiện trên hình 1.5
Hình 1.5: Tín hiệu của nguyên âm hoặc phụ âm hữu thanh
2.5 Chu kỳ của âm cơ bản
Theo mô hình tạo tiếng nói con người thường thuộc về một trong hai loại Loại thứ nhất là các âm được tạo ra do kết quả rung của dây thanh Mỗi lần rung dòng không khí được phóng ra từ phổi vào tuyến âm, khoảng thời gian giữa hai lần các luồng không khí đi qua kích thích tuyến phát âm gọi là chu kỳ âm cơ bản Những âm thanh như vậy được hình thành khi phát âm các nguyên âm và các phụ âm hữu thanh Tín hiệu của các âm thanh như vậy được biểu diễn trên hình 1.5
Loại thứ hai là các phụ âm vô thanh Các phụ âm vô thanh được hình thành khi không khí liên tục từ phổi đi qua tuyến âm Tuyến này bị co hẹp lại vào thời điểm nào đó để tạo ra sự cuộn xoáy của không khí Các phụ âm không kêu thuộc một số các phụ âm như f.s Thí dụ một số phụ âm không kêu được thể hiện trên hình 1.6 Lưu ý rằng, các phụ âm vô thanh giống với tín hiệu ngẫu nhiên hơn nhiều so với nguyên âm hoặc phụ âm hữu thanh
Trang 13Hình 1.6: Tín hiệu của âm không kêu
Trên các nguyên âm hoặc các phụ âm hữu thanh không chỉ thấy rõ độ dư thừa liên quan đến tính tuần hoàn trong tín hiệu được nói tới ở mục 4, mà còn thấy cả tính chu kỳ dài hơn liên quan đến âm cơ bản.Các chu kỳ âm cơ bản thường chiếm từ 5ms đến 20 ms đối với nam và thường từ 2,5 ms đến 10 ms đối với nữ Vì một nguyên âm hay một phụ âm hữu thanh tiêu chuẩn thường dài khoảng 100 ms Có thể sắp xếp 20 - 40 chu kỳ âm cơ bản vào một âm thanh
2.6 Tính không hữu hiệu của tín hiệu tiếng nói
Phân tích các cuộc đàm thoại cho thấy rằng phần hữu hiệu của cuộc đàm thoại trong trường hợp tiêu chuẩn khoảng 40% độ dài của nó Phần lớn các phần hữu hiệu là kết quả của việc một người đang nghe trong khi người kia nói và khoảng thời gian ngừng giữa hai âm được phát ra
2.7 Phổ trung bình của tín hiệu tiếng nói
Tín hiệu biến thiên theo miền thời gian S(t), ta lấy biến đổi Fourier được phổ của tín hiệu biến thiên theo miền tần số Phổ của tín hiệu cho ta biết các thành phần tần số khác nhau chứa trong tín hiệu đó như thế nào ? Xác định giọng trầm -> tần số thấp, giọng thanh -> tần số cao
Tín hiệu nhiễu ngẫu nhiên sẽ có phổ phẳng trong toàn dải còn tín hiệu tiếng nói có phổ không đều các mức công suất cao tập trung ở miền có tần số thấp và các mức công suất tại các tần số cao của dải giảm đi đáng kể