Nghiên cứu một số phương pháp trong nhận dạng tiếng nói

Trang Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 1 ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC KỸ THUẬT CÔNG NGHIỆP NGUYỄN NGỌC TOÀN NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP TRONG NHẬN DẠNG TIẾNG NÓI Chuyên ngành: Kỹ thuật điện tử Mã số: 60.52.70 LUẬN VĂN THẠC SĨ KỸ THUẬT Thái Nguyên - 2012 Trang Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2 CHƢƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI 1.1 GIỚI THIỆU Nhận dạng tiếng nói là một quá trình nhận dạng mẫu, với mục đích là phân lớp (classify) thông tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã được học trước đó và lưu trữ trong bộ nhớ. Các mẫu là các đơn vị nhận dạng, chúng có thể là các từ, hoặc các âm vị. Nếu các mẫu này là bất biến và không thay đổi thì công việc nhận dạng tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu tiếng nói cần nhận dạng với các mẫu đã được học và lưu trữ trong bộ nhớ. Khó khăn cơ bản của nhận dạng tiếng nói đó là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữa tiếng nói của những người nói khác nhau, tốc độ nói, ngữ cảnh và môi trường âm học khác nhau. Một nhiệm vụ khó khăn đó là xác định những thông tin biến thiên nào của tiếng nói là quan trọng đối với nhận dạng tiếng nói và những thông tin nào là không quan trọng đối với công việc nhận dạng tiếng nói. Đây là một nhiệm vụ rất khó khăn mà ngay cả với các kỹ thuật xác suất thống kê mạnh cũng khó khăn trong việc tổng quát hóa từ các mẫu tiếng nói, những biến thiên quan trọng cần thiết trong nhận dạng tiếng nói. Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản: - Tín hiệu tiếng nói được biểu diễn chính xác bởi các giá trị phổ trong một khung thời gian ngắn (short-term amplitude spectrum). Nhờ vậy ta có thể trích ra các đặc điểm tiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ liệu để nhận dạng tiếng nói. - Nội dung của tiếng nói được biểu diễn dưới dạng chữ viết, là một dãy các ký hiệu ngữ âm. Do đó ý nghĩa của một phát âm được bảo toàn khi chúng ta phiên âm, phát âm thành dãy các ký hiệu ngữ âm. Trang Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 3 - Nhận dạng tiếng nói là một quá trình nhận thức. Ngôn ngữ nói là có ý nghĩa, do đó thông tin về ngữ nghĩa (semantics) và suy đoán (pragmatics) có giá trị trong quá trình nhận dạng tiếng nói nhất là khi thông tin về âm học là không rõ ràng. Lĩnh vực nghiên cứu của nhận dạng tiếng nói là rất rộng, liên quan đến nhiều ngành khác nhau. Sau đây là các ngành và mối liên hệ của chúng với nhận dạng tiếng nói: - Xử lý tín hiệu số (digital signal processing): Các kỹ thuật xử lý tín hiệu số dùng để phân tích tín hiệu tiếng nói biến thiên theo thời gian nhằm trích ra các thông tin quan trọng từ tiếng nói. - Vật lý hay âm học (acoustic): Khoa học nghiên cứu về mối quan hệ giữa tín hiệu tiếng nói và cơ chế sinh lý học của bộ máy phát âm của con người, cũng như cơ chế hoạt động của tai người. - Nhận dạng mẫu: Các thuật toán dùng để phân loại dữ liệu thành tập các mẫu và đối sánh các mẫu dựa trên cơ sở tính toán khoảng cách giữa các đặc điểm của mẫu. - Lý thuyết thông tin và khoa học máy tính (information and computer science theory): Các thuật toán để tính toán các tham số của các mô hình thống kê, các thuật toán giải mã và mã hóa (lập trình động, các thuật toán dùng stack, giải mã Viterbi) để tìm một đường đi tốt nhất dãy các từ được nhận dạng. - Ngôn ngữ học (linguistics): Kiến thức về cấu trúc của ngôn ngữ, đặc biệt là đơn vị ngữ âm cơ bản của tiếng nói và vai trò của chúng trong việc sản sinh ra giọng nói. - Sinh lý học (physiology): Kiến thức về cấu tạo của bộ máy phát âm của con người, của tai người - Tâm lý học ứng dụng (applied psychology): Những kiến thức về quá trình sinh ra tiếng nói cũng như quá trình nhận thức tiếng nói của loài người. Trang Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 4 1.2 NGUYÊN TẮC CỦA HỆ THỐNG NHẬN DẠNG TIẾNG NÓI Các hệ thống nhận dạng tiếng nói có thể được phân chia thành hai loại khác nhau: hệ thống nhận dạng từ rời rạc và hệ thống nhận dạng từ liên tục. Trong hệ thống nhận dạng tiếng nói liên tục, người ta lại phân biệt hệ thống nhận dạng có kích thước từ điển nhỏ và hệ thống nhận dạng với kích thước từ điển trung bình hoặc lớn [Rabiner 1993]. Hình 1.1 cho ta các lớp hệ thống nhận dạng tiếng nói khác nhau. Trong hệ thống nhận dạng từ rời rạc, các phát âm được nhận dạng được giả thiết là chỉ bao gồm một từ hoặc một nhóm từ độc lập. Các từ được nhận dạng mà không phụ thuộc vào ngữ cảnh của nó. Nhận dạng tiếng nói với các từ rời rạc được ứng dụng trong các chương trình dạng câu lệnh - điều khiển (command-control), chẳng hạn như ứng dụng quay số bằng giọng nói trong điện thoại di động. Bài toán nhận dạng tiếng nói các từ rời rạc rõ ràng là dễ hơn rất nhiều so với bài toán nhận dạng tiếng nói liên tục vì ranh giới trái và phải của các từ được coi mặc nhiên là đã được xác định. Tuy nhiên trong thực tế việc tìm ranh giới các từ trong một phát âm liên tục không phải lúc nào cũng là dễ dàng [Dong 2001]. Ngoài ra xây dựng cơ sở dữ liệu các từ đơn lẻ cũng đơn giản và các phát âm các từ đơn lẻ cũng rõ ràng hơn so với các từ đứng liền nhau [Young 1996]. Ví dụ về các hệ thống nhận dạng liên tục với từ điển kích thước nhỏ là hệ thống nhận dạng các chữ số từ 0 đến 9, hệ thống nhận dạng các chữ cái, hoặc một số các từ hữu hạn nào đó. Các hệ thống này có tính chất là đơn vị nhận dạng của chúng có thể là các từ giống như hệ thống nhận dạng từ rời rạc. Với hệ thống nhận dạng liên tục có kích thước bộ từ điển lớn thì đơn vị nhận dạng cơ bản không thể là các từ mà là các âm vị hoặc bán âm tiết. Trang Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 5 Hình 1.1: Các hệ thống nhận dạng tiếng nói Trong đồ án chỉ nghiên cứu hệ thống nhận dạng các từ liên tục. Sau đây là nguyên tắc cơ bản của một hệ thống nhận dạng từ liên tục. Một phát âm dưới dạng .wav sẽ được phân tích thành một dãy các vector đặc tính phổ, mỗi vector tương ứng với một khung tín hiệu thường có độ dài 10ms. Ví dụ một phát âm Y được phân tích thành dãy các vector đặc tính phổ tương ứng y 1 , y 2 …, y T . Phát âm là một dãy các từ W = w 1 , w 2 , …, w n , và nhiệm vụ của hệ thống nhận dạng là tìm ra được dãy có từ Ŵ có xác suất cao nhất với dãy các vector đặc tính phổ Y cho trước. Theo luật xác suất Bayes ta có: Ŵ )(maxarg YWP )( )()( maxarg YP WYPWP  Do xác suất P(Y) là độc lập với W, do đó ta thấy để tìm được dãy từ có xác suất cao nhất Ŵ phải tìm dãy từ sao cho hai xác suất P(W) và P(Y|W) cao nhất. Xác suất P(W) độc lập với tín hiệu tiếng nói và xác suất này xác định bởi mô hình ngôn ngữ (language model). Xác suất P(Y|W) được xác định bởi mô hình âm học (acoustic model). Hình 1.2 cho thấy mối quan hệ giữa các xác suất này. Trong đó với một phát Hệ thống nhận dạng Hệ thống nhận dạng từ liên tục Hệ thống nhận dạng từ rời rạc Hệ thống với kích thước bộ từ điển nhỏ Hệ thống với kích thước bộ từ điển trung bình và lớn Trang Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 6 âm là dãy từ “giọng nói”, mô hình ngôn ngữ sẽ cho ta xác suất P(W). Bằng từ điển phiên âm ta biến đổi chúng thành dãy các âm vị tương ứng. Dãy các âm vị này cho ta xây dựng một mô hình Markov ẩn lớn bằng cách nối ghép các mô hình Markov ẩn của các âm vị tương ứng. Phát âm được trích trọn các đặc điểm đưa vào mô hình Markov ẩn lớn này sẽ cho ta xác suất P(Y|W). Về mặt nguyên tắc, quá trình này có thể lặp đi lặp lại với tất cả các dãy từ có thể để tìm ra dãy từ có xác suất lớn nhất. Hình 1.2: Khái quát về hệ thống nhận dạng Trong thực tế việc tìm xác suất với tất cả các dãy từ là không thể áp dụng. Một quá trình xem xét tất cả các dãy từ có thể song song với nhau được áp dụng và một quá trình chọn lọc xóa đi các dãy từ khó có khả năng trở thành dãy từ tốt nhất. Quá trình tìm kiếm này được gọi là quá trình giải mã (decoding). Trang Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 7 Hình 1.3 sau đây cho ta thấy các bước cơ bản của một hệ thống nhận dạng tiếng nói, gồm có ba giai đoạn: phân tích đặc tính, phân lớp mẫu và xử lý ngôn ngữ. Dãy các đặc tính phổ Dãy các từ Hoặc âm vị Tín hiệu tiếng nói Từ, câu được nhận dạng Mô hình âm học (acoustic model) Mô hình ngôn ngữ (language model) Hình 1.3: Các quá trình nhận dạng 1.2.1 Phân tích các đặc tính tiếng nói Phân tích các đặc tính trích ra các thông tin cần thiết cho quá trình nhận dạng tiếng nói từ tín hiệu tiếng nói. Quá trình này loại bỏ những thông tin không quan trọng. Chẳng hạn như tiếng ồn của môi trường thu âm, nhiễu trên đường truyền, các đặc điểm riêng biệt của từng người nói… Tiếng nói được phân tích theo từng khung thời gian (frame) với độ dài dao động từ 8ms tới 25ms [Joseph 1993]. Kết quả ra của giai đoạn này là các vector đặc tính của mỗi khung tín hiệu tiếng nói. Có hai cách tiếp cận thông dụng hiện nay thường được áp dụng để phân tích tín hiệu tiếng nói đó là phương pháp dựa vào mô hình hóa bộ đường phát âm (vocal tract) và phương pháp dựa vào mô hình hóa cảm nhận âm thanh của con người (human auditory system). Cả hai cách này đều đang được áp dụng thành công trong các hệ thống nhận dạng. Tuy nhiên các phương pháp phân tích tiếng nói hiện nay mới chỉ thực hiện được công việc nhỏ so với hệ thống phát âm và nhận thức âm thanh của con Phân tích đặc tính (feature analysis) Phân lớp mẫu (pattem classification) Xử lý ngôn ngữ (language processing) Các từ, âm vị Các từ, câu Trang Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 8 người. Sự cải tiến của các phương pháp này sẽ dẫn tới nâng cao năng lực nhận dạng của các hệ thống nhận dạng tiếng nói. Hai phương pháp trích trọn tiếng nói đang được sử dụng rộng rãi hiện nay trong các hệ thống nhận dạng hiện tại là: Phương pháp MFCC (Mel Scale Frequency Cepstral Coefficients) và PLP (Perceptual Linear Prediction). Có hai kỹ thuật xử lý tiếng nói có vị trí quan trọng là kỹ thuật RASTA (RelAtive SpecTral) và CMS (Cepstral Mean Subtraction). Đây là hai kỹ thuật áp dụng nhằm lọc bỏ nhiễu, những âm thanh không phải là tiếng nói. Hai kỹ thuật này đặc biệt có ích trong xử lý tiếng nói thu âm qua điện thoại [Avendano 1996]. Cả hai kỹ thuật đều có thể dùng kết hợp được với một trong hai phương pháp trích trọn đặc tính phổ MFCC hoặc PLP. Kỹ thuật RASTA có ưu điểm là có thể được áp dụng trong các hệ thống nhận dạng trực tiếp (live), nhận dạng phát âm mà không cần đợi phát âm đó kết thúc [Hermansky 1994]. Kỹ thuật này thường được đi kèm với phương pháp trích trọn đặc điểm PLP [Hermansky 1992]. Ngược lại kỹ thuật CMS có ưu điểm là đơn giản, thời gian tính toán nhanh, dễ áp dụng. 1.2.2 Phân lớp mẫu Bước thứ hai trong hệ thống nhận dạng tiếng nói đó là phân lớp mẫu, trong đó hệ thống sẽ gán dãy các vector đặc tính thành dãy tối ưu các đơn vị tiếng nói cơ bản (từ hoặc âm vị). Có bốn phương pháp hay được áp dụng đó là: đối sánh mẫu (template matcher), rule-based, mạng neuron và mô hình Markov ẩn. Nguyên tắc cơ bản của phương pháp đối sánh mẫu đó là cất giữ một số lượng các mẫu (examples) tiếng nói, bao gồm các vector đặc tính. Tín hiệu tiếng nói cần nhận dạng được phân tích và các vector đặc tính của chúng sẽ được so sánh với các mẫu đã được cất giữ trước đó. Do tốc độ phát âm là rất khác nhau, từ phát âm nhanh đến phát âm chậm, nên kỹ thuật DTW (Dynamic Time Warping) được áp dụng để dãn hoặc co hẹp thời gian trên trục thời gian nhằm giảm sự khác biệt so với các mẫu. Trang Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 9 Hệ thống rule-based xây dựng một loạt các tiêu chuẩn trên một cây quyết định để xác định xem đơn vị nào của ngôn ngữ nằm trong tín hiệu tiếng nói. Đối với hệ thống nhận dạng tiếng nói lớn, phương pháp này gặp khó khăn trong việc tổng quát hóa sự đa dạng của tiếng nói. Một vấn đề nữa là với cây quyết định, rất khó hồi phục lỗi nếu như một quyết định sai được xác định ngay từ khi bắt đầu phân tích. Mô hình Markov ẩn được nghiên cứu rộng rãi gần đây như là một công cụ mạnh được áp dụng thành công trong nhận dạng tiếng nói. Đa số các hệ thống nhận dạng tiếng nói đều dùng mô hình Markov ẩn. Chi tiết về mô hình Markov ẩn sẽ được trình bày trong Chương 3. Mạng neuron được áp dụng trong nhận dạng tiếng nói từ những năm 1980 với mong muốn sử dụng khả năng phân lớp mạnh của mạng. Mạng neuron truyền thẳng đa lớp perceptron thường được sử dụng trong nhận dạng tiếng nói. Tuy nhiên mạng neuron có hạn chế về khả năng mô hình hóa sự biến thiên của tiếng nói theo thời gian. Vì vậy mạng neuron gần đây hay được sử dụng thay thế các hàm mật độ xác suất trong các hệ thống lai ghép mạng neuron và mô hình Markov ẩn. 1.2.3 Mô hình ngôn ngữ Mục đích của mô hình ngôn ngữ là tìm ra xác suất của từ w k trong phát âm theo sau các từ W 1 k-1 = w 1 , w 2 , … w k-1 . Một phương pháp đơn giản hay được áp dụng đó là dùng N-gram, với giả thiết rằng từ w k chỉ phụ thuộc vào n-1 các từ đứng trước nó tức là P(w k |W 1 k-1 )=P(w k |W 1 1   k nk ) Mô hình ngôn ngữ N-gram cùng một lúc chứa đựng các thông tin về cú pháp (syntax), ngữ nghĩa (semantics), suy đoán (pragmatics) và chúng tập trung vào sự phụ thuộc lân cận của một từ. Các xác suất của mô hình ngôn ngữ có thể được tính toán trực tiếp từ cơ sở dữ liệu văn bản mà không cần đến các luật ngôn ngữ như ngữ pháp hình thức của ngôn ngữ. Trang Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 10 Về mặt nguyên tắc các xác suất của mô hình ngôn ngữ có thể được tính toán trực tiếp từ số lần xuất hiện của các từ trong cơ sở dữ liệu: ),( ),( ),( ˆ 12 1,2 21     kk kkk kk wwb wwwt wwP Trong đó hàm t(a,b,c) là số lần xuất hiện của bộ ba từ a,b,c (trigram). b(a,b) là số lần xuất hiện của bộ đôi (bigram) a,b. Tuy nhiên một vấn đề khó khăn cơ bản của mô hình ngôn ngữ là số lượng các bộ ba là quá lớn. Chẳng hạn với một hệ thống nhận dạng với bộ từ điển V có kích thước là 10.000 từ thì số lượng các bộ ba là V 3 . Số lượng từ này rõ ràng là quá lớn, sẽ có nhiều bộ ba không xuất hiện hoặc xuất hiện rất ít, chỉ một hoặc hai lần trong cơ sở dữ liệu. Với các trường hợp này, xác suất của các bộ ba là không tính được hoặc rất nhỏ. Mặc dù có khó khăn về tính toán như trên, mô hình ngôn ngữ vẫn chứng minh được là chúng đóng vai trò quan trọng trong các hệ thống nhận dạng. Trong các hệ thống nhận dạng với kích thước lớn hiện nay, các mô hình ngôn ngữ 3-gram và 2-gram dùng phổ biến [Young 1996]. Một số hệ thống nhận dạng có khả năng thay đổi mô hình ngôn ngữ theo ngữ cảnh, tự điều chỉnh mô hình ngôn ngữ trong quá trình nhận dạng [Béchet 2001, Estève2000]. 1.3 CÁC ỨNG DỤNG CỦA NHẬN DẠNG TIẾNG NÓI 1.3.1 Nhận dạng tiếng nói và viễn thông Dựa vào mạng điện thoại công cộng, nhận dạng tiếng nói ngày càng được đưa vào ứng dụng trong hệ thống điện thoại. Có hai nhóm chương trình ứng dụng của nhận dạng tiếng nói trong viễn thông [Roe 1993]. Nhóm đầu tiên là các ứng dụng nhằm làm giảm giá thành, đó là các ứng dụng trong đó một người thực hiện một tác vụ trong hệ thống viễn thông thông qua một nhân viên phục vụ (attendant). Trong ứng dụng này độ chính xác nhận dạng của các hệ thống nhận dạng thay thế nhân viên phục vụ là một yếu tố quan trọng, do vậy người dùng sẽ khó thông cảm cho các lỗi của hệ thống nhận dạng. [...]... thời các nghiên cứu mới chỉ ở bước khởi đầu Đã có một số nghiên cứu về nhận dạng thanh điệu tiếng Thái [Thubthong 2000b] 1.4.2 Các nghiên cứu về nhận dạng tiếng nói tiếng Việt Cho đến thời điểm hiện nay, chưa có nhiều các nghiên cứu về nhận dạng tiếng Việt Các công việc nghiên cứu về nhận dạng tiếng nói tiếng Việt đang được tiến hành với các bước đầu tiên, các bài toán cơ bản về nhận dạng tiếng nói Về... nào trong bộ từ điển đều có thể theo sau từ khác trong bộ từ điển 1.4.1 Các nghiên cứu về nhận dạng tiếng nói ngôn ngữ nƣớc ngoài Công nghệ nhận dạng tiếng nói đã có bước tiến dài trong các thập kỷ qua, một số các phần mềm nhận dạng tiếng nói đã có mặt trên thị trường, chẳng hạn như các phần mềm nhận dạng tiếng nói đọc chính tả của IBM, Gragon Systems, L&H Về lĩnh vực ứng dụng nhận dạng tiếng nói trong. .. thống nhận dạng Ngoài ngôn ngữ Châu Âu, các nghiên cứu về nhận dạng tiếng nói đối với các ngôn ngữ đơn âm và có thanh điệu giống tiếng Việt như tiếng Trung Quốc (bao gồm tiếng Bắc Kinh và tiếng Quảng Đông), tiếng Thái Lan cũng đã được nghiên cứu Với tiếng Trung Quốc, rất nhiều nghiên cứu đã được tiến hành, nhiều hệ thống nhận dạng tiếng nói tiếng Trung Quốc đã được công bố và các hệ thống nhận dạng tiếng. .. chạy trong các sản phẩm thường không phức tạp nhưng vẫn đảm bảo tỷ lệ độ chính xác nhận dạng chấp nhận được 1.4 NGHIÊN CỨU HIỆN THỜI VỀ NHẬN DẠNG TIẾNG NÓI Sau đây là các đặc điểm chính của hệ thống nhận dạng tiếng nói liên quan đến độ chính xác nhận dạng: Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang 13 - Sự phụ thuộc vào người nói: Hệ thống nhận dạng tiếng nói. .. người nói (speaker Dependent) hoặc là độc lập với người nói (speaker independent) Xây dựng một hệ thống nhận dạng tiếng nói cho giọng nói của một người dễ dàng hơn là xây dựng hệ thống nhận dạng tiếng nói cho nhiều người, nhất là khi những người này có giọng nói tại những địa phương khác nhau Tỷ lệ lỗi nhận dạng tiếng nói của hệ thống độc lập với người nói thường cao hơn 3 đến 5 lần so với hệ thống nhận. .. nguyên tắc, tiếng Việt cũng như các ngôn ngữ có thanh điệu khác, hệ thống nhận dạng bao gồm hai quá trình nhận dạng song song: nhận dạng các từ không có thanh điệu và nhận dạng thanh điệu [Zhang 2000] Hình 1.5 dưới đây miêu tả hệ thống nhận dạng ngôn ngữ có thanh điệu, trong đó có tiếng Việt: Nhận dạng các từ không dấu Nhận dạng thanh điệu Hình 1.5: Hệ thống nhận dạng ngôn ngữ có thanh điệu Nghiên cứu gần... cường độ chính xác nhận dạng: mô hình âm tiết, đơn vị nhận dạng cơ bản, ảnh hưởng của ngữ cảnh trong nhận dạng, … Độ chính xác nhận dạng cao nhất thu được là 98,83% ở mức từ Một nghiên cứu về nhận dạng thanh điệu tiếng Việt được tiến hành bởi TS Nguyễn Quốc Cường và cộng sự tại phòng thí nghiệm CLIPS-IMAG, trường đại học Grenoble tại Pháp [Cường] Tác giả đã nghiên cứu nhận dạng thanh điệu tiếng Việt dùng... nói đọc Điền mẫu biểu bằng giọng nói Tiếng nói liên tục Các từ rời rạc Đọc chính tả trong văn phòng Quay số bằng giọng nói Giọng nói do Ra lệnh bằng giọng nói 20 Tra cứu danh bạ 200 2000 20000 Hình 1.4: Các bài toán nhận dạng khác nhau theo kích thước bộ từ điển và kiểu nói Bảng 1.1 so sánh tỷ lệ lỗi nhận dạng của các hệ thống nhận dạng tiếng Anh so với khả năng nhận dạng của con người theo đánh giá... Nhận dạng tiếng nói trong các sản phẩm tiêu dùng Nhận dạng tiếng nói đã được áp dụng vào trong một số sản phẩm tiêu dùng hàng ngày như điện thoại, trò chơi và điện thoại di động Các điện thoại di động hiện nay cho phép người dùng có thể quay số bằng giọng nói nhờ cách đọc tên người được gọi ở trong danh bạ Các sản phẩm tiêu dùng đều có đặc điểm là có vi xử lý nhỏ, do đó thuật toán nhận dạng tiếng nói. .. 90,14% Bảng 1.2: Các hệ thống nhận dạng tiếng Hán Với ngôn ngữ Thái Lan, hầu hết các nghiên cứu tập chung vào nhận dạng các từ rời rạc [Sornlertlamvanich] Với các nghiên cứu hệ thống nhận dạng liên tục, hệ thống nhận dạng mười chữ số Thái liên tục đạt độ chính xác 96,89% với cơ sở dữ liệu thu âm trong nhà [Thubthong 2000a] Với hệ thống nhận dạng liên tục kích thước lớn tiếng Số hóa bởi Trung tâm Học liệu . Lan, hiện thời các nghiên cứu mới chỉ ở bước khởi đầu. Đã có một số nghiên cứu về nhận dạng thanh điệu tiếng Thái [Thubthong 2000b]. 1.4.2 Các nghiên cứu về nhận dạng tiếng nói tiếng Việt Cho. nhiều các nghiên cứu về nhận dạng tiếng Việt. Các công việc nghiên cứu về nhận dạng tiếng nói tiếng Việt đang được tiến hành với các bước đầu tiên, các bài toán cơ bản về nhận dạng tiếng nói. Về. chính xác nhận dạng chấp nhận được. 1.4 NGHIÊN CỨU HIỆN THỜI VỀ NHẬN DẠNG TIẾNG NÓI Sau đây là các đặc điểm chính của hệ thống nhận dạng tiếng nói liên quan đến độ chính xác nhận dạng:

Định dạng
Số trang	113
Dung lượng	0,98 MB

Nghiên cứu một số phương pháp trong nhận dạng tiếng nói

BẢNG KÝ TỰ PHIÊN ÂM

GÁN NHÃN BẰNG TAY 1 Giới thiệu