Giao tiếp giữa người-máy băng giọng nói sẽ là phương thức giao tiếp hiện đại và cóý nghĩa quan trọng trong một sô ứng dụng hăng ngày như: xe lăn cho người tàn tật được điều khiển bang gi
HỆ THÓNG DƯỚI F4 | | LÊN
HVTH: NGUYÊN THANH THẢO
Cac từ vựng được sử dụng trong luận ỏn nay bao gụm : “tới”, “luẽ”,
“trái”, “phải”, “lên”, “xuống”, “bật, “tat”, “ban”, “dừng”, “oil”, “thả”,
“đóng”, “mở”, “xoay”, “một”, “hai”, ba”.
Trong phan tiếp theo, các phương pháp xử lý kỹ thuật số tín hiệu tiếng nói ngắn hạn được phân tích bao gồm cả các dự đoán tuyến tính (LP) và phân tích Real Cepstrum (RC).
2.2 Các kỹ thuật xử lý tiếng nói 2.2.1 Kỹ thuật xử lý tín hiệu số lời nói ngăn hạn
Như đã dé cập trước đó, lời nói là một tín hiệu không dừng Dé khắc phục van dé nay, lời nói được phân chia thành những khoảng thời gian nhỏ, tại đó tính dừng có thé được giả định Khoảng thời gian nhỏ của lời nói được gọi là khung (frames) trong đó các thủ tục phân chia khung là thủ tục xử lý ngắn hạn Ý tưởng dang sau thủ tục xử lý ngắn hạn là "dé phân tích các khung của lời nói như những khung chuyển động theo thời gian và cô gắng dé thu các đặc trưng ở thời gian ngăn của tín hiệu" Khung lời nói được chiết suất bởi các cửa số Các loại cửa số và chiều dài của nó rất quan trọng vì ảnh hưởng đến kết quả xử ly Trong thực hiện của luận án nay, một cửa số
Hamming chiều dai 256 mẫu lời nói (hoặc 32 ms trong lời nói tại tần số lay mau 8 KHz) với 53% chong lap giữa các khung hình liên tiếp được sử dung.
Luận án này cũng sử dụng kỹ thuật xử lý tín hiệu số ngắn han dé phát hiện điểm cuối và chiết suất đặc trưng lời nói Cụ the, cac phuong phap ngan hạn được sử dụng để thực hiện hệ thống ASR bao gdm cac thu tuc nang luong tín hiệu ngắn hạn (STE), biện pháp zero-crossing (ZCM), Fast Fourier Transform (FFT), và biến đổi cosin rời rac (DCT) Thông tin thêm về các thủ tục này được đưa ra trong các chương sau.
2.2.2 Phân tích dự báo tuyến tính lời nói
Phân tích dự báo tuyến tính lời nói (LP) là một kỹ thuật xử lý tín hiệu kỹ thuật số để phân tích lời nói Hiện nay, nó được sử dụng chủ yếu trong các chương trình nén lời nói và trong quá khứ còn được sử dụng rộng rãi cho tự động nhận dạng tiếng nói Sử dụng kiến thức vẻ hệ thống tạo lời nói của con người và sản phâm của nó (lời nói), những mô hình toán học được phat triển dé mô tả các tín hiệu tiếng nói Phân tích dự báo tuyến tính tiếng nói được dựa trên sự đảo ngược của van dé tong hợp giọng nói Phương pháp này sé được miêu tả đầy đủ và là bước đầu làm quen về xử lý tiếng nói.
Sự tổng hợp giọng nói xảy ra trong một hệ thông tạo lời nói của con người và có thé được mô tả bằng mô hình "thiết bị đầu-cuối tương tự" ở hình
2.2 Thuật ngữ "thiết bị đầu-cuối tương tự "có nghĩa là mô hình và hệ thống mà nó đại diện là tương tự chi ở ngố ra của nó” (dạng sóng lời nói), và các giai đoạn trung gian không thé được coi là tương tự Trong mô hình này, hệ thống tổng hợp giọng nói là một bộ lọc với các loại kích thích khác nhau là
HVTH: NGUYÊN THANH THẢO
đầu vào va dạng sóng lời nói là đầu ra Hàm truyền của hệ thống H(z) cho môi khung tiéng nói (trong đó tính dừng có thê được xem xét) được dua ra trong phương trình (2.1)
Discrete- Voiced time Pulse | RA n)
Generator r SP ech Zero — pole Signal
Hình 2.2 Mô hình "thiết bị đầu-cuối tương tự” tạo lời nói thời gian rời rac
Các đầu vào của hệ thống này (nguồn kích thích) là chuỗi v(n) được đưa ra trong phương trình (2.2) dưới đây y O(n = kP) voice case v(n) Rk=—cœ
(2.2) nhiễu trắng, Normal(0,1) unuoice case trong đó P là bậc của bộ lọc và n là chỉ số tín hiệu.
Trong tong hop LP, hàm truyền zero-pole H(z) được thay ˆ thế băng một hàm truyền all-pole, với biên độ phổ tương ứng, nhưng không cần thiết giống phố tần tương ứng Định nghĩa bộ lọc tong hợp là một bộ lọc tự hồi quy (AR) thuân túy cho phép dé xác định bộ lọc phan tích lời nói là bộ loc FIR don giản Ngoài ra, kết quả tong hợp bộ lọc có thé được làm 6n định băng cách di chuyền các cực vao bên trong vòng tròn đơn vi Kết quả cudi cùng này được dựa trên thực tế là bat kỳ điểm zero bên ngoài vòng tròn don vị có thé được thay thế bằng một điểm zero liên hiệp tương ứng nằm bên trong vòng tròn đơn vị Tiếp theo, tất cả các điểm zero được hủy bỏ băng cách thêm một cực ở vị trí của nó Cuối cùng, kết quả hàm truyền của bậc M có M cực bên trong vòng tròn đơn vị và M điểm zero tại vị trí ban đầu Hàm truyền H(z) của mô hình phân tích thê hiện trong hình 2.2 được cho bởi phương trình (2.3), tại đó chúng ta lưu ý rằng các hệ số bộ lọc â() trong (2.3) là khác a() trong phương trình (2.1).
Các mô hình ước lượng tổng hợp tiếng nói toàn cực là có giá trị dựa trên thực tê răng hệ thông thính giác của con người là "điệc pha” Lưu ý rắng điều nay không có nghĩa là con người không thê phát hiện sự khác biệt pha
15 HVTH: NGUYÊN THANH THẢO trong những tín hiệu lời nói, bởi vi các thông tin về sự khác nhau về pha được sử dụng để ước tính vị trí nguôn tiếng nói Trong hoàn cảnh này "điếc pha" có nghia là nhận biết tiếng nói chủ yếu phụ thuộc vào độ lớn âm lượng Vi du, con người đã bị điếc một bên tai có thé cảm nhận được tiếng nói, nhưng không có khả năng xác định vị trí của nguôn tiếng nói.
Hàm truyền chỉ có các cực H(z) được xác định trong phương trình (2.3) là một xAp xi ham truyén zero-pole H(z) biéu dién trong phuong trinh (2.1) Các hệ sô bộ lọc â(¡) được tính như sau Gia sử rằng y[n] là một quá trình ngẫu nhiên dừng có khả năng dự đoán mạnh mẽ Vấn đề dự đoán tuyến tính được xác định là việc ước tính các giá trị thứ n của y (y[n]) bằng cách sử dụng P giá tri trước đó của y (y[n-1], y[n-2], , y[n-P]) , trong đó P là bậc cua hệ thống Nó được thé hiện:
Dp hoic Hn) =-) 8*(0)y— Ð (2.4) Đánh giá việc thực hiện dự đoán tuyến tính có the do lường bằng sai số e(n) được định nghĩa là sự khác biệt giữa giá tri thực tê y[n] va giá tri dự đoán của ?[n] và được việt như sau : e(n) = y() — ?(Œn) (2.5) e(n) = y(n) + 8 *()y(Œ — 1) + â*(2)y(-T 2) ++ +”()y(n—p) (2.6)
Các thông số â() thu được băng cách giảm thiểu các bình phương trung bình sai sô thu được băng cách giải phương trình tiêu chuân : ủyõ=b (2.7)
Ry[0] Ry[1] Ry[P] với By = ELT} Ry [-1] Ry [0] Ry [P — 1]
Một số phương pháp có thể được áp dụng để giải quyết các phương trình tiêu chuẩn Phương pháp cơ bản dé tính toán nghịch đảo của ma trận R đòi hỏi sử dụng máy tính, đặc biệt là cho các bộ lọc bậc cao Vì vậy, những phương pháp đệ quy đã được phát triển để giảm nỗ lực tính toán như phương pháp đệ quy Levinson-Durbin và một số phương pháp khác. l6 HVTH: NGUYÊN THANH THẢO
Các hệ số dự đoán tuyến tính cũng được sử dụng rộng rãi trong xử lý tiếng nói đê đánh giá các đặc điểm như cao độ và dãy tân số nghe rõ cua một tín hiệu tiếng nói Ví dụ, dự đoán tuyến tính được sử dụng để giải quyết các đặc trưng của tiếng nói có tiếng-vô thanh Các kỹ thuật khác đơn giản hơn là áp dụng biến đối Fourier nhanh vào hệ số LP va sử dung các đỉnh độ lớn quang phổ dé ước tính dãy tan số nghe rõ v.v
Có hai vẫn đề chính liên quan tới phương pháp LP sử dụng cho ước lượng các thông SỐ tiếng nói Đầu tiên là xác định bậc bộ lọc P và thứ hai lựa chọn nguon kích thích tín hiệu tiếng nói thực Phân tích LP được phát triển như một phương pháp để ước tính các thông số của bộ lọc toàn cực H(z) Bậc của bộ loc này là không 16, vì nó mô tả một mô hình tương tự đầu cudi mà chỉ có tín hiệu tiếng nói đầu ra được đưa ra Về mặt lý thuyết, mô hình LP làm việc lý tưởng là P đi đến vô cùng và/hoặc tần số cao độ đi đến zero Trong tình huống thực tế, phân tích LP cho thấy kết quả tốt cho cao độ nhỏ, tiếng nói có âm như sự phát âm của nam, nhưng thé hiện hiệu suất kém cho cao độ lớn tức là phát âm của phụ nữ hoặc trẻ em Các kỹ thuật khác nhau đã được phát triển cho sự lựa chọn P như phương pháp Markel và Gray thê hiện trong phương trình (2.9) Cuối cùng, hình 2.3 cho thấy một sơ đồ khối của phương pháp phân tích LP Các hệ sô bộ lọc tạo ra bởi việc giảm thiêu sai số được sử dụng dé mô tả đặc trưng tiếng nói mong muốn.
_ fpr + (4o0r5)] voice case floor|F,| unvoice case (2.9) với Fs tan số lay mau (kHz)
All-pole ‘Speech Linear | filter vin) Prediction} /n)
Human ineteh /12¿c2:2:77/207/:7⁄6::/27:227052::24c%: production system Linear Prediction Analysis sy stem.
Hình 2.3 Sơ đồ hệ thống phân tích dự đoán tuyến tính
Phân tích Cepstrum thực (RC) được sử dụng trong luận án này như là một phương pháp xử lý ngắn hạn để trích xuất đặc trưng tiếng nói Về cơ bản, phân tích cepstrum chuyển đối những tín hiệu theo một cách mà các tín hiệu phi tuyến đã kết hợp có thé được tách ra Lời nói, như mô hình ở trên và như biểu diễn trong hình 2.2, được thê hiện như tích chập của tín hiệu kích thích v(n) với hàm truyền bộ lọc của đường thanh quản h(n): y(n) =v(n)*h(n) — (2.10)
HVTH: NGUYEN THANH THẢO
Phân tích quang phố cô điển không thé đối phó với các van đề như việc tách v(n) và h(n) , bởi vì tích chập là một phương trình phi tuyến và v(n), h(n) chưa được biết Phân tích Cepstrum sử dụng một chuyến đổi "đồng dạng” dé tạo thành một mối quan hệ tuyến tính giữa hai tin hiệu theo cách mà kết qua là các tín hiệu trở nên tách rời.
Có hai loại biến đôi Cepstrum: Cepstrum thực (RC) và Cepstrum phức (CC) Sự khác biệt chính của chúng là trong thuật toán chuyển đối mà chúng sử dung RC sử dụng logarit của biên độ quang pho các tín hiệu thành phần trong khi CC sử dụng logarit của quang phô phức Logarit của một số phức
(hoặc logarit phức) được cho bởi phương trình sau day log(z) = log(|z|) + jarg{z} voizlasOphtc (2.11)
Kết quả CC có thé được coi là một chuyên đối "đồng dạng" thỏa mãn yêu câu tính thuận nghịch, trong khi RC không thể do sự mất mát của các thông tin pha trong thuật toán logarit Tuy nhiên, RC dễ dang để thực hiện hơn so với CC và sử dụng rộng rãi trong trường hợp sự khôi phục các tín hiệu phi tuyến ban đâu là không quan trọng, chăng hạn như trong nhận dạng giọng nói Đây là trường hợp trong nghiên cứu này.
Phân tích Cepstrum thực có thé được mô tả băng ba bước Dau tiên, biến đổi Fourier nhanh (FFT) được tính cho mỗi khung tiếng nói Kết quả là tích chập miền thời gian được the hiện trong phương trình (2.10) trở thành một phép nhân trong miễn tân số như sau:
Tiếp theo, logarit của các thành phan bên phải va bên trái của phương trình (2.12) được tính như sau : loglY(w)| = log|V(w)H(@)| = log|V(w)| + log|H(ð)|— Œ.13) hoặc Cy(w) = C,(w) + Cy (@) (2.14)
Tại thời điểm này, việc chuyển đổi đã hoàn thành và các thành phan tiếng noi đã được ket hợp tuyên tính Như vay, trong bước thứ ba, các giải thuật tuyên tính noi tiêng cua phân tích phô như FFT ngược được áp dung, dân đên phương trình sau:
Thật thú vị khi lưu ý các chỉ số thay đổi theo tan số (@) trong phương trình (2.14) trở thành thời gian (n) trong phương trình (2.15) Các thành phân của phương trình (2.15) là nam trong miện được gọi là mién"quefrency", được phan biệt với miên thời gian.
Nhiều kỹ thuật xử lý tín hiệu nỗi tiếng chang han như lọc hoặc
"liftering", khi nó được đặt vào phân tích Cepstrum, có thê được áp dụng cho các tín hiệu kêt hợp tuyên tính c„(n) trong miên "quefrency" Y tưởng là đê
IS HVTH: NGUYÊN THANH THẢO áp dụng một bộ lọc ("lifter" trong từ vựng cepstrum) để loại bỏ các thành phân được tách ra hoàn toàn của tín hiệu Thủ tục này được trình bày trong hình 2.4, nơi một "lifter” được áp dụng cho các hệ số Cepstral Cy(n) dé có được c,(n) Hon nữa, miền "quefrency" có thé được sử dung cho ước tính cao độ và dãy tan số nghe rõ, nơi những đỉnh cepstrum được sử dụng dé ước lượng vùng cao độ của âm vị.
+" | cer Ly) Logl| LOCC) er |SUJow-TimelS1 FFT or S42}
Hình 2.4 Liftering thời gian thấp của Cy(w) dé thu thành phan "tín hiệu"
Mặc dù, các hệ số LP có thé mô tả các tín hiệu tiếng nói, như đã được mô tả trước đó, song nó cũng có những hạn chế do phụ thuộc người nói và kiểu kích thích Phân tích Cepstrum thực thường được dùng để trích xuất các thông số giọng nói (đặc trưng) mà các thông số này có thé được dùng dé phân loại và áp dụng cho nhận dạng giọng nói Vì vậy, phương pháp tiếp cận Cepstrum thực được sử dụng để khắc phục các van dé phân tích LP, và tao ra các thông số mới, chăng hạn như các thông số Mel-Cepstrum, và thông số Delta hoặc các thông số Cepstrum khác Luận án này sử dụng các thông số Mel-Cepstrum như là dau vào để thực hiện hệ thống ASR bởi vì chúng đã thé hiện sự nhận dạng tốt hơn trong những nghiên cứu trước đó khi lựa chọn sự nhận dang bằng mô hình Markov ân rời rac so với hai loại thông số còn lại.
Các thông số tính toán Mel-Cepstrum dựa trên những nghiên cứu các nguyên lý sự cảm nhận âm thanh, được đưa vào để giải thích cách lời nói được cảm nhận bởi hệ thống thính giác cua con người Các nghiên cứu đã chỉ ra rằng tai của con người không cảm nhận tuyến tính được tần số âm thanh và một tần số của cường độ cao có thé che giấu một tan số lân cận với cường độ thấp hơn Phương pháp tiếp cận sơ đồ tỷ lệ Mel và bank bộ lọc là kết quả của những nhận xét này Các đơn vị của tỷ lệ Mel (gọi là mel) bắt chước con người cảm nhận tần số, và nhiều phương trình khác nhau đã được đề xuất trong những năm qua liên quan đến đơn vị mel và tan số tín hiệu thực tế.
Phương trình sử dụng trong luận án này
Fryer = 2595 logo hà cctual ) (2.16) F Hz
Hình 2.5 và 2.6 cho thay một đô thị của ty lệ mel từ 0 đến 5KHz, và một phiên ban thu nhỏ tương ứng ở giữa 0 va 1 KHz Lưu ý rằng đồ thị là khá tuyến tính từ 1 đến 1000Hz va thé hiện đáp ứng logarit ở tần số cao.
Hình 2.5 Ty lệ mel tương ứng với công thức 2.16.
frequency, (mels) 400
Hình 2.6 Phan tuyến tinh của tỷ lệ mel từ 1-1000 Hz
Những bank bộ loc băng thông được xây dung dựa trên quan sat thực nghiệm "sự cảm nhận âm thanh" về sự chỉ phối của tần số lân cận Theo đặc tính này, nhận biết tiếng nói con người có thể được mô tả bởi một nhóm các bộ lọc dải phố FIR đơn giản với một băng thông cu thé Nhiều loại sơ đồ bank bộ lọc tồn tại và khác nhau chủ yếu trong việc lựa chon tan số trung tâm va loại bộ lọc Bank bộ lọc bang thong được su dụng trong luận an này bao gom một tập hợp 24 bộ loc dai thong FIR các tam giác chồng chéo với tần số trung tâm xuất phát từ tỷ lệ mel, như đề xuất trong một số nghiên cứu trước đó Các tần số trung tâm và băng thông tương ứng của việc thực hiện nay được liệt kê trong bang 2.1 Cac đại diện miên tân số (FFT) của các bộ lọc hình tam giác được thé hiện trong hình 2.7.
Các hệ số Cepstrum bộ lọc Mel (MFCC) thu được như sau:
- Ap dụng FFT với khung tiếng nói.
- Loc các bộ lời nói tổng hợp trong miễn tan số băng cách sử dụng 24 bank bộ lọc mel.
- Tính độ lớn trung bình có trọng số của bộ tong hợp cho tất cả các bank bộ lọc Điêu này có thê được coi là tính năng lượng bình quân có trọng sô của các tín hiệu lời nói vào băng thông được xác định bởi từng bank bộ lọc.
- Lay logarit của năng lượng của tín hiệu vượt qua dai băng thông.
- Tính toán các thông số MECC sử dung IFFT hoặc chuyên đôi cosin rời rac (DCT).
Thu tục nay được thé hién trong hình 2.8 va được mô tả băng toán học:
MFCC,, = 3 Xucos In 27] n=0:Mvak = 1:L (2.17) 1.7 k=1 trong đó M là tổng số các thông số MECC, L là tông số của các bank bộ lọc mel và X, là logarit của bình quân có trọng sô cua năng lượng lời nói trong băng thông theo quy định của ngân hàng bộ lọc mel thứ k.
Hình 2.7 Bank bộ loc dai phố FIR tam giác ty lệ mel
Speed Ls) rer 3 Filter Dị logl| | DCT 1 MFCC |
Hình 2.8 So đồ khối trích xuất các đặc tính MFCC
Mel Filter Bank Center BW index Frequency (Hz) | (Hz)
Bang 2.1 Bank bộ lọc băng thông căn cứ vào ty lệ Mel
Hệ số cepstrum bộ lọc Mel đã được chứng minh là độc lập người nói và có thê được coi là đặc trưng dang tin cậy nhat đê sử dụng trong các ứng dụng nhận dạng giọng nói Tuy nhiên, hệ sô cepstrum bộ lọc Mel được cho là nhạy cảm với môi trường nhiêu.
2.3 Hệ thong nhận dạng tiếng nói nói tự động (ASR) 2.3.1 Hệ thong tự động nhận dạng giọng nói
Hệ thống tự động nhận dạng lời nói có thé được sử dụng để tạo thuận lợi cho giao ti€ép giữa con người va máy móc Lời nói dựa trên sự tương tác
22 _ HVTH: NGUYEN THANH THẢO của con người-máy tinh được thé hiện trong một số ứng dụng hàng ngày, chăng hạn như hệ thông voice-mail trong điện thoại, máy hoạt động không điều khién băng tay, giao diện truyền thông cho những người có khả năng đặc biệt, và các thiệt bị dịch Hệ thông ASR đã được thiệt kê cho các ứng dụng khác nhau trong nhiêu lĩnh vực, dưới sự ảnh hưởng của những hạn chê, chang hạn như ngôn ngữ và từ vựng cụ thê, phụ thuộc người nói, môi trường nhiêu tự do va ti lệ nói nhỏ, với kêt qua xuât sac Các hệ thông hiện tại được chia thành ba loại chính:
- Từ vựng nhỏ (từ 10 đến 100 từ).
- Hệ thong ASR từ rời rac - từ vựng tương đối nhỏ (nhỏ hơn 10000).
- Hệ thống ASR lời nói liên tục - thực hiện trong "phạm vi" cụ thé
(1000-5000 từ) Thuật ngữ "phạm vi" liên quan dén môi trường ma giao tiêp người máy bị hạn chê bởi vôn từ vựng, lệnh hoặc các vân đê liên quan.
2.3.2 Vẫn đề ảnh hưởng đến ASR
Thiết kế và hiệu suất hệ thông ASR bị ảnh hưởng bởi một số yếu to.
Như vậy, thiết kế của một hệ thống ASR đáng tin cậy bat đầu bằng cách kiếm tra SỰ tôn tại của các yếu tố này trong phạm vi thực hiện Một phân loại chung về các yếu tô ảnh hưởng đến việc thiết kế và hiệu suất của một hệ thống ASR - Phụ thuộc người nói
- Kích thước từ vựng - Từ độc lập so với lời nói liên tục
- Van dé phát hiện điểm cuối - Sự nhằm lẫn và mơ hồ của từ vựng - Đặc điểm tiếng ôn của môi trường - Hạn chế ngôn ngữ và kiến thức.
Tiếp theo, sẽ mô tả ngắn gọn về các yếu tố ảnh hưởng đến việc thiết kế và thực hiện một hệ thông ASR.
2.3.2.1 Phụ thuộc người nói Đặc điểm tín hiệu tiếng nói phụ thuộc vào cau trúc của bộ phận cầu âm của người nói Hệ thông ASR thường sử dụng người nói cho đánh giá hiệu suât huân luyện và nhận dạng Có hai loại hệ thông ASR được sử dụng rộng rãi: hệ thong ASR phụ thuộc vào người nói là hệ thông được huan luyện bởi một người nói và được sử dụng chỉ bởi người nói này, và hệ thông ASR người nói độc lập, trong đó một nhóm người nói được sử dụng dé huấn luyện, và cùng một nhóm hoặc một nhóm khác sử dụng hệ thống Rõ ràng, các thé loại cũ là dê dàng dé thực hiện hon sau này, với két qua ghi nhận có liên quan tot hơn Nghiên cứu nay xem xét một hệ thông ASR người nói độc lập Trong nỗ
23 HVTH: NGUYEN THANH THẢO lực này, một sô người nói với các đặc tính khác nhau đã được sử dụng trong quá trình huan luyện, dé tạo ra một hệ thông mạnh mẽ.
Kích thước từ vựng là một tham số quan trọng trong việc thiết kế và thực hiện đánh giá một hệ thống ASR Từ vựng càng lớn, càng khó dé thiết kế các hệ thống ASR Hơn nữa, khi kích thước của từ vựng tăng, hiệu suất ASR thường giảm, chủ yếu do ảnh hưởng của các yếu tố khác, chang hạn như sự nhâm lẫn và sự mơ hồ âm thanh, và những khó khăn về ngôn ngữ Ngoài ra, một vốn từ vựng lớn đòi hỏi một số lượng lớn các tính toán cho việc đáp ứng thời gian Tu vựng một hệ thong ASR được phân loại là nhỏ (1 đến 99 từ), trung bình (100-999 từ) hoặc lớn (hơn 1000 từ) Các ranh giới của phân loại này có xu hướng thay đổi khi hệ thống có kích thước lớn hơn (200.000 từ) được đưa ra Luận án này sử dụng một từ vựng nhỏ gồm 18 từ.
2.3.2.3 Từ độc lập so với loi nói liên tục
Một sự chú ý khác trong việc thiết kế và thực hiện đánh giá một hệ thong ASR là cách phát âm (thường là từ hoặc âm vị) được sử dụng trong quá trình huấn luyện và nhận dạng Sự tỒn tại của "khoảng im lang" giữa các từ mô tả đặc điểm hệ thống nhận dang từ độc lập (TWR) Im lặng trong trường hợp này là khoảng thời gian giữa hai từ liên tiếp khi nhận dạng gia định rang không có lời nói đưa ra Thông thường, một khoảng thời gian 200 mili giây là yêu câu tối thiểu Huan luyện hệ thong [WR liên quan đến nhiều bản ghi âm của mỗi tir cô lập từ một hoặc nhiều người nói (tùy thuộc vào mức độ của hệ thống ASR phụ thuộc người nói).
Các giai đoạn nhận dạng trong hệ thống IWR yêu câu tách biệt rõ ràng các từ với nhau bằng một khoảng thời gian “im lặng" Hệ thống IWR là hình thức đơn giản nhất của nhận dạng, thường là đạt được hiệu suất cao, mà chủ yếu là phụ thuộc vào một chương trình phát hiện điểm cuối.
Nhận dạng lời nói liên tục (CSR) không đòi hỏi một thời gian "sự im lang" giữa lời nói và nhận dạng phải có kha năng cảm nhận lời nói tại một ty lệ tự nhiên của con người với hạn chế tối thiêu Đặc điểm kỹ thuật này có nghĩa là hệ thống như vậy phải làm việc hiệu quả với phụ âm kép và các đặc tính khác của lời nói, chang hạn như giữa và trong các từ phát âm Cải thiện thuật toán phát hiện điểm cuối được sử dụng trong CSR để tính toán các vẫn đề thay đối ranh giới Hơn nữa, trong một SỐ trường hợp, một đơn vi tín hiệu nói nhỏ hơn được sử dụng, chang han như một chiếc điện thoại thay vì một từ riêng biệt Trong những trường hợp này, giai đoạn huấn luyện phức tạp hon và tập trung vào sự bao gồm của nhiều câu nói khác nhau càng tốt Hơn nữa, hạn chế ngôn ngữ giúp các hệ thong nhận giọng nói ngay cả khi tat cả các lời nói của một câu không được ghi nhận, bang cách sử dụng các thuật toán nhận dạng tiên tiến Hệ thống CSR rõ ràng là phức tạp hơn hệ thống IWR và thường có hiệu suất thấp hơn Tuy nhiên, hệ thống CSR được sử dụng rộng
24 HVTH: NGUYEN THANH THẢO rãi vì thực tế là nó dường như là một giao diện truyền thông ngôn luận tự nhiên hơn cho người dùng.
2.3.2.4 Van dé phát hiện điểm cuối
Giải thuật phát hiện điểm cuối đóng một vai trò quan trọng, đặc biệt là trong các hệ thống IWR Chúng được sử dụng bang sự nhận biết để tìm ranh giới từ và phân biệt chúng với nhiễu và "sự im lặng" Hiệu suất nhận dạng bị suy giảm khi các thuật toán như vậy làm việc không hiệu quả Phương pháp tiếp cận khác nhau đã được thực hiện để phát hiện điểm kết thúc, chủ yếu dựa trên zero-crossing và các biện pháp liên quan đến năng lượng Tuy nhiên, đây là một van dé thách thức, đặc biệt là do âm vị năng lượng thấp Dé khắc phục van dé này, nhiều phương pháp khác nhau đã được phát triển và được thảo luận.
Van dé này sẽ được tìm hiệu và trình bày rõ hơn ở phan sau.
2.3.2.5 Sự mơ hô và nhầm lẫn từ vựng âm thanh
Từ mơ hồ về âm thanh là những từ có cách phát âm tương tự hoặc đồng âm, chang hạn như "lui" hoặc "lùi", va rất khó để phân biệt âm bởi các đặc trưng của nó trong quá trình xử lý tiếng nói Sự nhằm lẫn mô ta các hiện tượng xảy ra cho hai từ, một từ có thé được coi là không chính xác so với từ còn lại thông qua nhận dạng, chủ yếu là bởi vì chúng bao gồm các âm vị tương tự Sự nhận dạng của chúng chỉ phụ thuộc vào khả năng nhận dạng dé phân biệt các âm vi phụ âm yếu ớt, một nhiệm vụ mà không phải là luôn luôn dé dang, đặc biệt là khi nhiễu tồn tại Nói chung, hai vấn dé này có mặt trong hệ thống ASR lời nói liên tục với các từ vựng lớn Không phải vấn đề có trong các từ sử dụng cho luận án này.
2.3.2.6 Đặc điểm nhiễu của môi trường
3-Q_-0- 3ORORO
HVTH: NGUYÊN THANH THẢO
3 Thiết lập khởi điểm tạm thời tại khung hiện tại, nếu giá trị STE của nó là lớn hơn ngưỡng STE trung gian thì di dén bước 5,
4 Loại bỏ 40 mẫu đầu tiên, chỉnh lại các chỉ số khung và tiếp tục với các khung hình tiép theo (bước 1) nêu bước 3 đã không dua ra bat kỳ kêt quả cho 7 khung đâu tiên.
5 Tiếp tục với bước I nếu STE của khung hiện tại là nhỏ hơn so với ngưỡng STE trung gian và sô lượng khung thu được nhỏ hơn 7,
6 Quay ngược tới những khung lưu trữ (từng khung cho tối đa là bảy khung) so sánh giá trị ZCR của khung với ngưỡng ZCR,
7 Đếm số lần xuất hiện tại đó giá trị ZCR của khung lớn hơn ngưỡng
8 Thiết lập diém bat dau chắc chắn của khung tai vi trí ZCR của khung được tìm thay là lớn hơn giá tri ngưỡng ZCR lân thứ ba,
9 Thiết lập điểm bắt đầu chắc chắn của khung tại nơi khởi điểm tạm thời đã được xác định ban đâu nêu bước 8 không dua ra bat kỳ kêt qua nào.
3.2.2 Thuật toán phát hiện điểm cuối
Thuật toán thực hiện phát hiện điểm kết thúc dựa trên các thuật toán được mô tả theo các bước sau:
1 Tính STE của khung hiện tại và so sánh nó với ngưỡng STE trung bình,
2 Thiết lập điểm kết thúc có thé tại khung hiện tại, nếu giá trị STE của nó là thâp hơn so với ngưỡng STE trung gian,
3 Tiếp tục với bước 1 nêu bước 2 không đưa ra bất kỳ kết quả nào, 4 Tiếp tục ghi lại các khung, tính toán ZCR khung hiện tai,
5 So sánh ZCR của khung hiện tại với ngưỡng ZCR
6 Thiết lập điểm kết thúc chắc chắn tại khung nơi mà lần thứ ba ZCR được tìm thay là lớn hơn ngưỡng ZC R
7 Thiết lập điểm kết thúc chắc chắn tại khung nơi điểm kết thúc có thé đã được xác định nếu bước 5 đã không đưa ra bất kỳ kết quả cho 7 khung hình liên tiếp sau bước 2.
3.3 Thuật toán phát hiện tín hiệu tiếng nói
Do tín hiệu nhiễu nên sau khi điểm bắt đầu và điểm kết thúc cuối cùng được phát hiện, ta phải thực hiện kiểm tra xem tín hiệu thu được có phải tín hiệu tiếng nói hay là các tín hiệu nhiễu Thủ tục này sẽ tiễn hành kiêm tra xem s6 lượng mau của tín hiệu thu được có lớn hơn một số lượng mẫu nhất định nào đó không, ở đây ta chọn 1000 mẫu để so sánh Nếu số lượng mẫu thu được lớn hơn 1000 mẫu, ta xem tín hiệu thu được là tín hiệu tiếng nói; còn
35 HVTH: NGUYEN THANH THẢO ngược lại ta xem là nhiêu nên sẽ loại bỏ và tiên hành tìm điêm bat dau và điêm kết thúc mới.
Giai thuật của thủ tục này như sau:
[ Tính tông sô mâu của từ thu được
2 So sánh với sô lượng mau tôi thiêu có thê chap nhận của các mau mà có thê chứa một từ được thu (trong nghiên cứu này sô lượng là 1.000 mâu),
3 Hoàn thành thủ tục phát hiện tiếng nói nếu khoảng thời gian của từ thu được lớn hon 1000 mau
4 Xóa tat cả các mau thu, kích hoạt lại thủ tục phát hiện điểm bat dau.
Kết quả thực hiện thủ tục ta thu được :
Al A AK VAM Ut A AU |Ì
-4 -MIÍ-.HL HJ WE JOE „ 3L „ TL _ se Á, „LÍ Í„.~ ~~~~~~~- +
Hình 3.2 Tín hiệu tiếng nói thu được của từ "tới" trước và sau khi cắt bỏ nhiều
TRÍCH XUẤT ĐẶC TRƯNG TÍN HIỆU TIENG NÓI
Nhận dạng tiếng nói đạt hiệu suất tốt hơn khi nhận dạng được cung cấp bởi các vector đặc trưng nhỏ gon Nhu đã thảo luận ở phan trước, hệ số Cepstral tan số Mel (MFCCs) được chap nhận rộng rãi và được su dung để đại điện cho tín hiệu tiếng nói, gift được các đặc điểm lời nói, trong khi giảm các tác động của sự thay đổi giọng nói Hơn nữa, các đặc trưng MECC tốt hon các loại đại diện tín hiệu lời nói khác, đặc biệt là khi được sử dụng để nhận dạng từ don âm và các đặc trưng MFCC mang lại kết quả tốt hơn so với các thông số khác được xem xét và có hiệu quả trong trường hợp nhận dạng từ độc lập.
Hình 4.1 cho thấy một sơ đồ khối của một quá trình trích xuất đặc trưng
MFCC theo lý thuyêt và được mô tả như sau: e Đóng khung : dữ liệu lời nói được đóng khung trong khung 256 mẫu tương ứng với 32 ms, chồng chéo đến 53%, dé thu tốt hơn những thay đổi theo thời gian từ khung này sang khung khác. e Ctra SỐ : khung lời nói được lọc bằng bộ lọc dạng cửa SỐ bang cach ap dụng một cửa số Hamming w (n) w(n)
0 các trường hợp khác e Fast Fourier Transform (FFT): Trong mỗi khung hình, một bộ chuyển đối Fourier nhanh 256 điểm dạng phức được áp dụng dé chuyển đổi tín hiệu từ miễn thời gian sang miễn tan số. e Làm cong tần số Mel: Các thông tin tân số thu được trong mỗi khung lời nói được truyền qua bank bộ lọc Mel được mô ta ở trên, kết quả thu được 24 hệ số tan số cho mỗi khung hình. e Tinh toán năng lượng Logarit: Mot chuyển đổi logarit được ap dụng cho độ lớn của mỗi hệ số tần số mel, loại bỏ các thông tin về pha, tự động nén các đặc trưng, và làm cho việc trích xuất đặc trưng ít nhạy cảm với những sự thay đối phụ thuộc vào người nói. e Tính toán Cepstrum tân số Mel: Cuối cùng, các hệ số Cepstral tần số mel được tính toán bang cách áp dụng DFT ngược đối với logarit của độ lớn của dau ra bộ lọc ngân hàng Lưu ý rang DFT ngược giúp làm giảm thao tác bộ chuyên đối cosin rời rac (DCT) bởi vì logarit pho biên độ của các hệ số là thực và đối xứng Hơn nữa, DCT có lợi thé là tạo ra các đặc trưng không tương quan cao Kết quả hệ số Cepstral tần số Mel c(k) được đưa ra bởi n=1:N = 256 (4.1)
HVTH: NGUYEN THANH THẢO
— 2