Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 61 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
61
Dung lượng
1,28 MB
Nội dung
1 GVHD: TS.VŨ ĐỨC LUNG SVTH: LÊ HOÀNG HÀ – TRẦN LONG KHÁNH CHƢƠNG 1 TÌM HIỂU VỀ CÁC HỆ TH ỐNG NHẬN DẠNG TIẾNG NÓI. 1.1 Đặt vấn đề Ngày nay cùng với sự phát triển của khoa học kĩ thuật, các hệ thống máy móc ngày càng hoàn thiện giúp con ngƣời làm việc hiệu quả hơn và cũng đã giải phóng con ngƣời trong rất nhiều công đoạn của công việc. Tuy nhiên quá trình giao tiếp giữa ngƣời và máy vẫn còn nhiều bất cập phải thông qua các thiết bị xuất nhập chuẩn. Để ngày càng tự nhiên hoá việc giao tiếp và điều khiển máy móc, vấn đề nghiên cứu các phƣơng pháp nhận dạng tiếng nói đƣợc đặt ra và đã có một số phần mền ra đời nhận dạng tiếng anh tƣơng đối tốt nhƣ via voice của IBM, spoken toolkit của CSLU(central of spoken language understanding),Speech Recognition của Microsoft… Tuy nhiên đối với tiếng việt thì chƣa có hệ thống nhận diện hoàn chỉnh nào đƣợc xây dựng, vấn đề này chỉ mới đƣợc quan tâm nghiên cứu trong những năm gần đây. Đã có một số công trình nghiên cứu về lĩnh vực này với nhiều hƣớng tiếp cận khác nhau, song kết quả đạt đƣợc vẫn còn nhiều khiêm tốn(ví dụ nhƣ phần mềm Vspeech của nhóm Sinh Viên Đại học Bách Khoa TPHCM,VN voice của PGS.TS Lƣơng Chi Mai ở Viện Công Nghệ Thông Tin ). Do đó, nảy sinh vấn đề cần xây dựng một nền tảng hoàn chỉnh để tìm ra một hƣớng đi thích hợp cho nghiên cứu nhận dạng tiếng nói nhằm đạt đƣợc một kết quả tốt hơn. 1.2 Tình hình phát triển Với sự phát triển nhanh chóng của các ngành công nghiệp điều khiển, tự động hoá, liên quan tới lĩnh vực ngôn ngữ. Từ đó cần phải có sự liên kết chặt chẽ giữa các loại ngôn ngữ(ngôn ngữ khoa học,máy,…) để làm cho việc điều khiển và xử lý công việc một cách dễ dàng và thuận tiện hơn. Khối lƣợng công việc có thể đƣợc tăng lên đáng kể nhờ những tiện lợi trong trao đổi thông tin. Vì vậy, xử lý và nhận dạng tiếng nói để áp dụng vào các lĩnh vực là yêu cầu cần thiết đƣợc đề ra. 2 GVHD: TS.VŨ ĐỨC LUNG SVTH: LÊ HOÀNG HÀ – TRẦN LONG KHÁNH Trƣớc sự phát triển của máy tính nhiều nhà khoa học đã nghĩ đến vấn đề làm thế nào để nhận dạng đƣợc tiếng nói, chuyển tiếng nói thành văn bản và ngƣợc lại chuyển văn bản thành tiếng nói làm cho con ngƣời có khả năng giao tiếp với máy tính bằng ngôn ngữ và từ đó có thể giao tiếp với các thiết bị khác bằng tiếng nói một cách dễ dàng. Sự phát triển của máy tính làm cho vấn đề xử lý và nhận dạng tƣởng chừng nhƣ rất dễ dàng nhƣng trên thực tế thì không hoàn toàn nhƣ vậy. Những nguyên nhân xử lý và nhận dạng tiếng nói trở nên phức tạp: Trên thế giới có rất nhiều loại ngôn ngữ, mỗi quốc gia, dân tộc có một loại ngôn ngữ riêng nên rất khó để tạo một hệ thống nhận dạng chung mà bất kì ai cũng có thể sử dụng đƣợc. Cấu tạo thanh quản của mỗi ngƣời cũng rất khác nhau cho nên việc phát âm của cùng một từ của những ngƣời khác nhau cũng đã có sự khác biệt lớn. Nhận dạng tiếng nói không chỉ là nhận dạng một từ hay một số từ mà là nhận dạng một chuỗi các từ liên tục và còn phải xác định các từ nhận dạng đƣợc là đúng hay sai về mặt ngữ pháp, phù hợp với những lệnh đã thiết kết hay không, nếu không thì phải xử lý nhƣ thế nào. Bản thân tiếng nói đã không ổn định lại đƣợc phát ra trong môi trƣờng có nhiễu càng làm cho các đặc trƣng của tiếng nói bị sai lệch và sẽ ảnh hƣởng trong quá trình nhận dạng. 1.3 Tình hình nghiên cứu và ứng dụng 1.3.1 Tình hình nghiên cứu nhận giạng tiếng nói: Ngày nay trên thế giới đã có rất nhiều nghiên cứu về nhận dạng tiếng nói trong nhiều lĩnh vực khác nhau với rất nhiều phƣơng pháp rất đa dạng. Mỗi hệ thống nhận dạng và xử lý khác nhau ở hai đặc điểm: - Đặc trƣng tiếng nói đƣợc tách để thực hiện việc xử lý và nhận dạng. - Phƣơng pháp áp dụng để phân biệt các đặc trƣng của tiếng nói. 3 GVHD: TS.VŨ ĐỨC LUNG SVTH: LÊ HOÀNG HÀ – TRẦN LONG KHÁNH Các phương pháp nhận dạng tiếng nói phổ biến: Phƣơng pháp ngữ âm - âm vị học (acoustic-phonetic approach) Phƣơng pháp ngữ âm - âm vị học dựa trên lý thuyết âm vị: lí thuyết này khẳng định sự tồn tại hữu hạn và duy nhất các đơn vị ngữ âm cơ bản trong ngôn ngữ nói gọi là âm vị, đƣợc phân chia thành: nguyên âm - phụ âm, vô thanh-hữu thanh, âm vang -âm bẹt… Các âm vị có thể xác định bởi tập các đặc trƣng trong phổ của tín hiệu tiếng nói theo thời gian. Đặc trƣng quan trọng nhất của âm vị là formant. Đó là các vùng tần số có cộng hƣởng cao nhất của tín hiệu. Ngoài ra còn một số đặc trƣng khác nhƣ âm vực (cao độ - pitch), âm lƣợng… Hệ thống nhận dạng dựa trên phƣơng pháp này sẽ tách các đặc trƣng từ tín hiệu tiếng nói và xác định chúng tƣơng ứng với âm vị nào. Sau đó, dựa vào một từ điển phiên âm, máy sẽ xác định chuỗi các âm vị đó có khả năng là phát âm của từ nào nhất. Xét khía cạnh nguyên lí, phƣơng pháp có vẻ rất đơn giản. Tuy nhiên các thử nghiệm trong thực tế cho thấy phƣơng pháp cho kết quả nhận dạng không cao. Nguyên nhân từ những vấn đề sau: Phƣơng pháp cần rất nhiều tri thức về ngữ âm học, nhất là các tri thức liên quan đến đặc tính âm học của các âm vị. Mà những tri thức này nhìn chung còn chƣa đƣợc nghiên cứu đầy đủ. formant chỉ ổn định đối với các nguyên âm, với phụ âm formant rất khó xác định và không ổn định. Hơn nữa việc xác định các formant cho độ chính xác không cao. Đặc biệt khi chịu ảnh hƣởng của nhiễu (là vấn đề thƣờng xảy trong thực tế). Rất khó phân biệt các âm vị dựa trên phổ, nhất là các phụ âm vô thanh. Có một số phụ âm rất giống nhiễu (ví dụ: /s/, /h/). 4 GVHD: TS.VŨ ĐỨC LUNG SVTH: LÊ HOÀNG HÀ – TRẦN LONG KHÁNH Phƣơng pháp trí tuệ nhân tạo (artifactial intelligence approach) Phƣơng pháp trí tuệ nhân tạo nghiên cứu cách học nói và học nghe của con ngƣời, tìm hiểu các quy luật ngữ âm, ngữ pháp, ngữ nghĩa, ngữ cảnh… và tích hợp chúng bổ sung cho các phƣơng pháp khác để nâng cao kết quả nhận dạng. Chẳng hạn có thể thêm các hệ chuyên gia (expert system), các luật logic mờ (fuzzy logic) về ngữ âm, âm vị… vào các hệ nhận dạng tiếng nói dựa trên phƣơng pháp ngữ âm-âm vị học để tăng độ chính xác cho việc xác định các âm vị (vấn đề đã đƣợc đề cập là rất khó nếu chỉ sử dụng các thông tin về âm phổ ). Hay đối với các hệ nhận dạng mẫu, ngƣời ta cải tiến bằng cách với mỗi đối tƣợng cần nhận dạng, hệ thống sẽ chọn ra một số mẫu “giống” đối tƣợng nhất, sau đó sẽ kiểm chứng tiếp các kết quả đó bằng các luật ngữ pháp, ngữ nghĩa, ngữ cảnh… để xác định mẫu phù hợp nhất. Hiện nay đang có một phƣơng pháp trí tuệ nhân tạo trong nhận dạng tiếng nói đƣợc nghiên cứu rộng rãi là mạng nơron. Tuỳ vào cách sử dụng, mạng nơron có thể coi là mở rộng của phƣơng pháp nhận dạng mẫu hoặc phƣơng pháp ngữ âm- âm vị học. Phƣơng pháp nhận dạng mẫu (pattern recognition approach) Phƣơng pháp nhận dạng mẫu dựa vào lý thuyết xác suất - thống kê để nhận dạng dựa trên ý tƣởng: so sánh đối tượng cần nhận dạng với các mẫu được thu thập trước đó để tìm mẫu "giống" đối tượng nhất. Nhƣ vậy hệ thống nhận dạng sẽ trải qua 2 giai đoạn: Giai đoạn huấn luyện thực hiện các nhiệm vụ: thu thập mẫu, phân lớp và huấn luyện hệ thống ghi nhớ các mẫu đó. 5 GVHD: TS.VŨ ĐỨC LUNG SVTH: LÊ HOÀNG HÀ – TRẦN LONG KHÁNH Nguồn vào Thu thập, tiền xử lý Trích chọn đặc trƣng Dữ liệu huấn luyện Mẫu dữ liệu huấn luyệnPhân lớp Đặc trƣng Huấn luyện cơ cấu nhận dạng Cơ cấu nhận dạng Hình 1.1 Sơ đồ giai đoạn huấn luyện của phƣơng pháp đối sánh mẫu Giai đoạn nhận dạng: nhận vào đối tƣợng cần nhận dạng, so sánh với các mẫu và đƣa ra kết quả là mẫu giống đối tƣợng nhất. Nguồn vào Thu thập, tiền xử lý Trích chọn đặc trƣng Đối tƣợng cần nhận dạng Đặc trƣng Cơ cấu nhận dạng Thông tin phân lớp Lựa chọn lớp, hậu xử lý Kết quả Hình 1.2 Sơ đồ giai đoạn nhận dạng của phƣơng pháp đối sánh mẫu Phần lớn các hệ nhận dạng thành công trên thế giới là sử dụng phƣơng pháp này. Phƣơng pháp có những ƣu điểm sau: Sử dụng đơn giản, dễ hiểu, mang tính toán học cao (lý thuyết xác suất thống kê, lý thuyết máy học, …) 6 GVHD: TS.VŨ ĐỨC LUNG SVTH: LÊ HOÀNG HÀ – TRẦN LONG KHÁNH Ít bị ảnh hƣởng của những biến thể về bộ từ vựng, tập đặc trƣng, đơn vị nhận dạng, môi trƣờng xung quanh… Cho kết quả cao. Điều này đã đƣợc kiểm chứng trong thực tế. Nhận dạng mẩu sử dụng mô hình Markov ẩn là phƣơng pháp đƣợc chọn để thực hiện đề tại nên sẽ đƣợc trình bày chi tiết ở phần sau của báo cáo. 1.3.2 Khả năng ứng dụng: Hệ thống nhận dạng tiếng nói là hệ thống cho phép đầu vào là tiếng nói con ngƣời. Có 3 ứng dụng cơ bản của hệ thống nhận dạng tiếng nói: Voice commands: ngƣời sử dụng nói vào một lệnh và máy tính thực hiện một công việc tƣơng ứng với lệnh đó. Text dictation: ngƣời sử dụng đọc chính tả, còn máy tính sẽ ghi lại những gì ngƣời sử dụng đọc. Đòi hỏi máy tính phải cho phép đọc toàn bộ từ vựng trong ngôn ngữ. Speaker recognition: ngƣời sử dụng đọc vào một câu cho sẵn và máy tính sẽ định danh ngƣời dùng dựa trên các đặc tính của giọng nói. 1.4 Tình hình tổng quan trong và ngoài nước Thế giới: Trên thế giới đã có nhiều nhà khoa học ở các trƣờng đại học và công ty lớn đầu từ vào lĩnh vực nhận dạng tiếng nói và đã có nhiều thành tựu đáng kể. Dƣới đây là một số dự án nghiên cứu tiêu biểu. CMU SPHINX: còn gọi gọn là SPHINX là một hệ nhận dạng tiếng nói đƣợc phát triển tại đại học Carnegie Mellon, bao gồm một Engine nhận dạng tên là SPHINX và một chƣơng trình huấn luyện âm vị là SphinxTrain. Kể từ năm 2001, nhóm phát triển Sphinx đã mở mã nguồn một số thành phần của chƣơng trình nhận dạng bao gồm Sphinx 2 và tới nay là Sphinx 4. Ngoài ra còn một số chƣơng trình khác kèm theo gồm chƣơng trình huấn luyện mô hình âm vị (acoustic model), chƣơng trình biên dịch mô hình ngôn ngữ (language model) và 7 GVHD: TS.VŨ ĐỨC LUNG SVTH: LÊ HOÀNG HÀ – TRẦN LONG KHÁNH từ diển phát âm (cmudict), là các chƣơng trình cần thiết để sử dụng Sphinx. Chi tiết về Sphinx có thể tham khảo tại địa chỉ http://cmusphinx.sourceforge.net. Microsoft Speech Recognition: từ năm 1993 sau khi tuyển mộ đƣợc ngƣời đứng đầu của nhóm nghiên cứu Sphinx – X.Huang, từ đại học Carnegie Mellon, Microsoft bị thu hút vào lĩnh vực nghiên cứu nhận dạng tiếng nói và chuyển văn bản sang tiếng nói(text - to - speech). Công ty này sau đó đã xây dựng Speech API (SAPI), một giao diện lập trình dành cho những ai muốn phát triển ứng dụng liên quan đến giọng nói trên môi trƣờng Windows. Hiện tại đã có SAPI 5.4, chi tiết có thể tham khảo tại http://www.microsoft.com/speech/speech2007/default.mspx. Julius: là một dự án mã nguồn mở nghiên cứu phát triển hệ nhận dạng tiếng nói với bộ từ vựng lớn (khoảng 60000 từ) dựa trên mô hình Markov ẩn phụ thuộc ngữ cảnh. Mục tiêu chính của Julius là phát triển hệ nhận dạng tiếng nói liên tục với bộ từ vựng lớn dành cho tiếng Nhật. Đây là một chƣơng trình nhận dạng mã nguồn mở có khả năng nghiên cứu mở rộng cho nhiều ngôn ngữ khác nhau, chi tiết tại địa chỉ http://julius.sourceforge.jp/en_index.php. Dragon: đây là một sản phẩm thƣơng mại nổi tiếng trong lĩnh vực nhập giạng và tổng hợp tiếng nói đƣợc công ty NUACE. Công ty này đã phát triển hệ nhận dạng của riêng mình và cho ra đời nhiều phiên bản Dragon khác nhau đáp ứng các nhu cầu khác nhau nhƣ Dragon cho lĩnh vực y khoa, Dragon phục vụ học tập…Tuy nhiên vì đây là một chƣơng trình mã đống nên không có khả năng nghiên cứu. Chi tiết tham khảo tại http://www.nuance.com/dragon/index.htm. Trong nước: Mặc dù thế giới đã có nhiều công trình nghiên cứu và ứng dụng mang lại thành công nhƣ vậy, nhƣng do nhiều lý do mà ở trong nƣớc chƣa có một hệ nhận dạng tiếng nói nào đƣợc phát triển một cách hoàn chỉnh cũng nhƣ rất ý đề tài nghiên cứu về lĩnh vực này. Đƣợc biết đến nhiều nhất trong nhận dạng tiếng Việt là chƣơng trình Vspeech của nhóm sinh viên tại trƣờng đại học Bách khoa TpHCM. Đây là chƣơng trình đã đoạt giải thƣởng Trí tuệ Việt Nam năm 2004. Vspeech là 8 GVHD: TS.VŨ ĐỨC LUNG SVTH: LÊ HOÀNG HÀ – TRẦN LONG KHÁNH một chƣơng trình hoạt động dựa trên bộ máy nhận dạng tiếng nói của Microsoft tích hợp sẳn trong Windows. Cách hoạt động của Vspeech hết sức đơn giản, dựa trên sự tƣơng đối giống nhau khi phiên âm latin của một số từ tiếng Anh và tiếng Việt, nhóm Vspeech đã sử dụng chƣơng trình nhận dạng tiếng nói của Microsoft cung cấp, thực hiện thao tác nhận dạng sau đó ánh xạ từ tiếng Anh nhận đƣợc sang từ tiếng Việt có phiên âm latin gần giống nhất. Ví dụ, từ “hai” trong tiếng Việt phát âm gần giống với “hi”- nghĩa là xin chào- trong tiếng Anh. Khi một ngƣời nói “hai”, bộ nhận giạng tiếng nói của Microsoft sẽ cho kết quả là “hi”, từ kết quả này, Vspeech sẽ ánh xạ “hi” với “hai” trong tiếng Việt và cung cấp kết quả cuối cùng của thao tác nhận dạng là “hai”, đúng với từ mà ngƣời nói mong muốn. Với cách làm này, công việc chủ yếu của nhóm Vspeech là tìm ra những từ tiếng Anh có phiên âm gần giống với từ tiếng Việt, sau đó chỉ cho phép bộ nhận dạng tiếng nói (tiếng Anh) của Microsoft chấp nhận các từ này là kết quả nhận dạng cuối cùng. Bộ từ vựng này sẽ đƣợc ánh xạ với một bộ từ tiếng Việt cùng phiên âm tƣơng ứng. Việc còn lại là từ kết quả là từ tiếng Anh có đƣợc từ bộ nhận dạng của Microsoft, Vspeech sẽ ánh xạ sang từ tiếng Việt tƣơng ứng và đƣa ra kết quả nhận dạng là từ tiếng Việt này. Ƣu điểm trong cách làm này là không cần phải xây dựng một bộ nhận dạng tiếng nói mà sử dụng lại cái có sẳn, thời gian xây dựng ứng dụng nhanh. Tuy nhiên, cách làm này là không bền vững vì: - Không phải từ tiếng Việt nào cũng có từ tiếng Anh phát âm gần giống. - Những từ tiếng Việt chỉ khác dấu phát âm gần giống nhau sẽ khó phân biệt trong quá trình nhận dạng. - Không nhận dạng đƣợc khi nói nhiều từ liên tục. Những nhƣợc điểm trên là bởi vì bộ nhận dạng tiếng nói của Microsoft là một bộ nhận dạng tiếng nói dành cho tiếng Anh và một số ngôn ngữ khác mà không hổ trợ tiếng Việt, trong khi đặc điểm về ngữ âm, ngữ pháp, mô hình ngôn ngữ của các 9 GVHD: TS.VŨ ĐỨC LUNG SVTH: LÊ HOÀNG HÀ – TRẦN LONG KHÁNH ngôn ngữ khác nhau là khác nhau. Do đó mà độ chính xác khi nhận dạng là không cao cũng nhƣ khả năng đáp ứng thấp. Vì lí do này mà nhóm thực hiện đề tài đã nghiên cứu chi tiết về các kỹ thuật sữ dụng trong nhận dạng tiếng nói nói chung và các hệ nhận dạng các ngôn ngữ khác đƣợc mở mã nguồn, để từng bƣớc xây dựng một hệ nhận dạng tiếng nói dành cho tiếng Việt. 10 GVHD: TS.VŨ ĐỨC LUNG SVTH: LÊ HOÀNG HÀ – TRẦN LONG KHÁNH CHƢƠNG 2 CƠ SỞ LÝ THUYẾT Chương này sẽ trình bày sơ qua về các vấn đề lý thuyết cơ bản và quan trọng được sử dụng khi xây dựng một hệ nhận dạng tiếng nói trong chương tới. 2.1. LÝ THUYẾT NGỮ ÂM 2.1.1. Lý thuyết về tiếng nói Mục đích của tiếng nói là truyền thông tin. Có một số đặc trƣng cho việc truyền tiếng nói. Theo lý thuyết thông tin, tiếng nói có thể biểu diển dƣới dạng nội dung thông báo hoặc thông tin. Một cách đặc trƣng khác là tiếng nói biễu diễn dƣới dạng tín hiệu mang thông tin thông báo. Mặc dù các quan điểm lý thuyết của thông tin đống vai trò chủ đạo trong các hệ thống truyền tin phức tạp, ta sẽ thấy là biễu diễn tiếng nói dựa trên dạng sóng hoặc mô hình tham số đƣợc sử dụng chính trong các ứng dụng thực tế. Để xét quá trình thông tin tiếng nói, đầu tiên nên coi thông báo nhƣ một dạng trừu tƣợng nào đó trong đầu ngƣời nói. Qua quá trình phúc tạp tạo âm, thông tin trong thông báo này đƣợc chuyển trực tiếp thành tín hiệu âm học. Thông tin thông báo có thể đƣợc biểu diễn dƣới một số dạng khác nhau trong quá trình tạo tiếng nói. Chẳng hạn, thông tin thông báo lúc đầu đƣợc chuyển thành tập hợp các tín hiệu thần kinh điều khiển có chế phát âm (đó là chuyển động của lƣỡi, môi, dây thanh âm…). Bộ máy phát âm chuyển động tƣơng ứng với các tín hiệu thần kinh này để tạo ra dãy các điệu bộ, mà kết quả cuối cùng là dạng sóng âm chứa thông tin trong thông báo gốc. Thông tin đƣợc thông báo bằng tiếng nói về bản chất là rời rạc, có thể biểu diễn bởi việc dán các phần tử ở một tập hợp hữu hạn các ký hiệu. Các ký hiệu mà mỗi âm có thể đƣợc phân loại ra gọi là các âm vị (phoneme). Mỗi ngôn ngữ có tập hợp các âm vị riêng của nó, con số mẫu mực là khoảng từ 30 đến 50. Ví dụ tiếng Anh có thể biểu diễn bằng khoảng 42 âm vị, tiếng Việt khoảng 33 âm vị ( 12 nguyên âm : a, ă, â, o, u… và 21 phụ âm: k, l, m, ph …). [...]... cơ bản là âm vị, có số lƣợng nhỏ hơn nhiều Vì vậy hầu hết các hẹ thống nhận dạng sẽ mô hình hóa các đơn vị dƣới từ (sub-word) nhƣ âm vị trong khi đó sẽ nhận dạng các từ dựa vào tìm kiếm các chuỗi âm vị tƣơng ứng của nó Các hệ thống nhận dạng nhƣ vậy gọi là hệ thống nhận dạng dựa vào các đơn vị dƣới từ (sub-word based system) Sự liên hệ giữa các trạng thái của HMM và không gian âm học (acoustic space)... với nhận dạng tiếng nói tiếng Việt Thuận lợi Những đặc điểm ngữ âm tiếng Việt cho thấy nhận dạng tiếng nói tiếng Việt có một số thuận lợi sau: GVHD: TS.VŨ ĐỨC LUNG SVTH: LÊ HOÀNG HÀ – TRẦN LONG KHÁNH 16 Tiếng Việt là ngôn ngữ đơn âm, số lƣợng âm tiết không quá lớn Điều này sẽ giúp hệ nhận dạng xác định ranh giới các âm tiết dễ dàng hơn nhiều Đối với hệ nhận dạng các ngôn ngữ Ấn-Âu (tiếng Anh, tiếng. .. dùng trong các hệ thống xử lý tiếng nói nhƣ mô phỏng các hệ thống tƣơng tự phức tạp Quan điểm lúc đầu là phải mô phỏng các hệ thống tƣơng tự trên máy tính để tránh việc xây dựng các hệ thống để thực nghiệm Xúc tác chính là sự phát triển của máy tính nhanh hơn và các tiến bộ nhanh trong lý thuyết kỹ thuật xử lý tín hiệu số Nhƣ vậy, các hệ thống xử lý tín hiệu số có khả năng mô phỏng các hệ tƣơng tự... trong tiếng Việt rất đa dạng (mỗi miền có một giọng đặc trƣng) Hệ thống ngữ pháp, ngữ nghĩa tiếng Việt rất phức tạp, rất khó để áp dụng vào hệ nhận dạng với mục đích tăng hiệu năng nhận dạng Hệ thống phiên âm cũng chƣa thống nhất Các nghiên cứu về nhận dạng tiếng Việt cũng chƣa nhiều và ít phổ biến Đặc biệt khó khăn lớn nhất là hiện nay chƣa có một bộ dữ liệu chuẩn cho việc huấn luyện và kiểm tra các. .. Mô hình HMM âm học dùng các mô hình HMM để mô hình hóa các mẫu sóng âm của một đơn vị tiếng nói Đơn vị này có thể là từ (âm tiết) hoặc các đơn vị dƣới từ (âm vị) Mỗi HMM trong hệ thống mô hình hóa các thể hiện thực tế của một đơn vị tiếng nó Đôi khi các đơn vị mô hình hóa (trong huấn luyện) lại khác so với các đơn vị trong nhận dạng Ví dụ, trong hầu hết các hệ thống nhận dạng tiếng nói, đơn vị trong... năng mô phỏng các hệ tƣơng tự tốt, cộng thêm với các phát triển về lý thuyết và phần cứng số làm tăng ƣu thế của các hệ thống xử lý tín hiệu số so với các hệ thống tƣơng tự Các hệ thống số đã trở nên đáng tin cậy và rất chặt chẽ Công nghệ đã cho phép các hệ thống cực kỳ phức tạp có thể hoạt động trên một chip đơn, các thành phần logic đủ nhanh đế số lớn các tính toán thực tế trong GVHD: TS.VŨ ĐỨC LUNG... thực và ở tốc độ mẫu tiếng nói Có nhiều lý do khác để dùng kỹ thuật số trong các hệ thống thông tin tiếng nói Chẳng hạn, nếu mã hóa đƣợc dùng, tiếng nói dƣới dạng số hóa có thể truyền đi một cách tin cậy trên các kênh rất ồn Cũng vậy, nếu tín hiệu tiếng nói ở dạng số thì nó đồng nhất với dữ liệu của các dạng khác Do vậy, một hệ thống có thể dùng để truyền tín hiệu tiếng nói cùng các tín hiệu khác mà... Sơ đồ nhận dạng từ mô hình HMM đã huấn luyện Ta có thể thấy lúc huấn luyện thì chúng ta huấn luyện trên mô hình âm vị, còn lúc nhận dạng thì chúng ta nhận dạng trên âm tiết Chiến lƣợc tìm kiếm đƣợc xây dựng dựa trên thuật toán Viterbi 3.4.2 Các thành phần cơ bản của hệ thống nhận dạng tiếng nói dựa trên HMM và mỗi liên hệ giữa chúng Chúng ta đã xem xét phần cốt lõi của HMM áp dụng vào nhận dạng tiếng. .. số là nhận biết các đối tƣợng trong xử lý tín hiệu tƣơng tự Câu hỏi đặt ra là vì sao các kỹ thuật xử lý tín hiệu số lại đƣợc dùng để nghiên cứu thông tin tiếng nói? Đầu tiên và quan trọng nhất là các hàm xử lý tín hiệu phức tạp có thể thực hiện bằng cách dùng kỹ thuật số Khi xử lý tín hiệu tiếng nói, nhiều trƣờng hợp không thể coi các hệ thống này là các hệ thống xấp xỉ của các hệ thống tƣơng tự Các. .. tra các hệ thống nhận dạng tiếng Việt 2.2 Lý thuyết xử lý tín hiệu số GVHD: TS.VŨ ĐỨC LUNG SVTH: LÊ HOÀNG HÀ – TRẦN LONG KHÁNH 17 Trong các hệ thống truyền tiếng nói, tín hiệu tiếng nói đƣợc truyền đi, lƣu giữ và xử lý bằng nhiều cách Các giải pháp kỹ thuật cho ta nhiều cách biểu diễn tín hiệu tiếng nói Có 2 cách chính: - Lƣu giữ nội dung thông báo trong tín hiệu tiếng nói - Biểu diễn tín hiệu tiếng . ứng dụng: Hệ thống nhận dạng tiếng nói là hệ thống cho phép đầu vào là tiếng nói con ngƣời. Có 3 ứng dụng cơ bản của hệ thống nhận dạng tiếng nói: Voice commands: ngƣời sử dụng nói vào một. các hệ thống này là các hệ thống xấp xỉ của các hệ thống tƣơng tự. Các kỹ thuật xử lý tín hiệu số lúc đầu đƣợc dùng trong các hệ thống xử lý tiếng nói nhƣ mô phỏng các hệ thống tƣơng tự phức. đƣơng là: Các hệ thống LSI thƣờng dùng để lập các phép lọc trên các tín hiệu tiếng nói và đặc biệt là trong các mô hình tạo ra tiếng nói. Khi đã có đƣợc cách biểu diễn tiếng nói ở dạng số, ngƣời