Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 57 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
57
Dung lượng
2,72 MB
Nội dung
LỜI CẢM ƠN Trước bước vào trình trình bày chi tiết trình học tập thực đồ án tốt nghiệp thân thời gian qua Cho phép gửi lời cảm ơn đến người bên tôi, động viên giúp đỡ trình thực nghiên cứu, tìm hiểu đề tài trình hoàn thiện đề tài, để thân hoàn thành thời hạn với đề tài nghiên cứu thân Cho phép gửi lời cảm ơn tới Ban giám hiệu trường Đại học Công nghệ thông tin truyền thông thầy cô tham gia công tác giảng dạy trường cố gắng nỗ lực để tạo môi trường học tập tốt cho thân bạn sinh viên trường với trang thiết bị hỗ trợ ý nâng cấp đại qua năm Cho phép gửi lời cảm ơn tới thầy cô môn Hệ thống thông tin – Khoa công nghệ thông tin – Trường đại học Côg nghệ thông tin truyền thông giảng dạy, truyền đạt kiến thức chuyên ngành định hướng cho bạn sinh viên hướng thân để phù hợp với lực thân Cho phép gửi lời cảm ơn chân thành tới TS Nguyễn Văn Tới – người thầy hướng dẫn thực đồ án tốt nghiệp Cảm ơn thầy tạo điều kiện xây dựng định hướng kĩ cho thân để thực đề tài nghiên cứu tốt Tiếp theo cho gửi lời cảm ơn chân thành tới PGS.TS Nguyễn Ái Việt – người tận tình bảo, định hướng cụ thể để thân có chuẩn bị rõ ràng, tiếp thu ý kiến bổ ích để thân thực đồ án tốt nghiệp với đề tài: “Nghiên cứu công nghệ nhận dạng tiếng nói ứng dụng xây dựng hệ thống hỗ trợ dịch Cabin” Qua cho gửi lời cảm ơn tới cô Lê Ngọc Hồng – Chủ tịch HĐQT kiêm Giám đốc Công ty VIEGRID JSC, toàn thể anh chị nhân viên công ty tạo điều kiên cho em làm việc môi trường nghiêm túc hướng dẫn bảo tận tình cho thân em trình thực đề tài nghiên cứu thân Cuối cho gửi lời cảm ơn chân thành tới tất người, người thân, bạn bè bên cạnh tôi, động viên, giúp đỡ để vững tâm thực đồ án với nỗ lực thân Xin chân thành cảm ơn! Thái Nguyên, ngày … tháng … năm …… Sinh viên thực Nguyễn Khắc An MỤC LỤC LỜI CẢM ƠN .1 MỤC LỤC DANH MỤC HÌNH ẢNH MỞ ĐẦU TÓM TẮT NỘI DUNG .8 CHƯƠNG I: SƠ LƯỢC VỀ DỊCH CABIN .9 1.1 Khái niệm dịch Cabin 1.2 Thành phần 1.3 Hiện trạng thực tế 10 CHƯƠNG II: TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI 11 2.1 Tổng quan nhận dạng tiếng nói 11 2.1.1 Khái niệm 11 2.1.2 Nguyên tắc nhận dạng tiếng nói 12 2.1.3 Cách tiếp cận .12 2.2 Một số công trình nghiên cứu nhận dạng tiếng nói .12 2.2.1 Quốc tế .12 2.2.2 Việt Nam 16 2.3 Ứng dụng nhận dạng tiếng nói .16 CHƯƠNG III: CMU SPHINX 18 3.1 Giới thiệu 18 3.1.1 Các tính 18 3.1.2 Các lợi ích sử dụng Sphinx 19 3.2 Kiến trúc Sphinx 19 3.2.1 Bộ ngoại vi (FontEnd) 21 3.2.2 Bộ giải mã (Decoder) 22 3.2.3 Bộ ngôn ngữ (Linguist) 23 CHƯƠNG IV: CHƯƠNG TRÌNH DEMO 26 4.1 Cài đặt 26 4.1.1 Tải gói Sphinx cần thiết 26 4.1.2 Cài đặt 26 4.2 Xây dựng ngôn ngữ .28 4.2.1 Xây dựng từ điển 28 4.2.2 Xây dựng mô hình ngôn ngữ 29 4.2.3 Xây dựng mô hình âm học 32 4.2.4 Tiến hành huấn luyện 36 4.2.5 Huấn luyện thích nghi 38 4.3 Chương trình Demo 43 4.3.1 Giao diện chương trình demo: .43 4.3.2 Đánh giá 43 KẾT LUẬN .53 Kết đạt 53 Những điểm hạn chế 53 Hướng nghiên cứu phát triển .53 TÀI LIỆU THAM KHẢO 55 NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN 57 DANH MỤC HÌNH ẢNH Hình 1.1 : Mô hình dịch Cabin Hình 2.1: Mô hình tổng quát nhận dạng tiếng nói 11 Hình 3.1: Kiến trúc Sphinx 20 Hình 3.2: Kiến trúc tổng quát Ngoại vi 21 Hình 3.3: Chuỗi Dataprocessor trình xử lý 22 Hình 3.4: Ví dụ đồ thị tìm kiếm đơn giản 25 Hình 4.1: cài đặt Sphinx Ubuntu .26 Hình 4.2: Sơ đồ trình tạo mô hình ngôn ngữ công cụ CMUcmltk .29 Hình 4.4: Giao diện ứng dụng nhận dạng HDH Window 43 Hình 4.5: Blue score – AJHope – Direct 44 Hình 4.6: Accuracy – AJHope – Direct .45 Hình 4.7: Blue score - Kennedy - Direct 45 Hình 4.8: Accuracy - Kennedy – Direct 46 Hình 4.9: Blue score - Nicxon – Direct 46 Hình 4.10: WER – Nicxon – Direct 47 Hình 4.11: Accuracy - Nicxon - Direct 47 Hình 4.12: Blue score - Kennedy nhận dạng AJHope 48 Hình 4.13: WER – Kennedy nhận dạng AJHope .48 Hình 4.14: Accuracy - Kennedy nhận dạng AJHope 49 Hình 4.15: Blue score - Kennedy nhận dạng Nicxon 49 Hình 4.16: WER – Kennedy nhận dạng Nicxon .50 Hình 4.17: Accuracy - Kennedy nhận dạng Nicxon 50 Hình 4.18: Blue score - Kennedy nhận dạng Nicxon 51 Hình 4.19: WER – Kennedy nhận dạng Nicxon .51 Hình 4.20: Accuracy - Kennedy nhận dạng Nicxon 52 MỞ ĐẦU Công nghệ nhận dạng tiếng nói, lĩnh vực dành quan tâm hàng đầu nhà nghiên cứu lĩnh vực Công nghệ thông tin Ngay từ năm kỉ XX, tức công nghệ thông tin bắt đầu đặt móng để phát triển, đề tài hay ý tưởng nhận dạng tiếng nói xử lý ngôn ngữ hình thành Cùng với trình phát triển công nghệ thông tin, bước đột phá việc nâng cấp phần cứng, cải thiện hiệu sử dụng đời hệ điều hành hỗ trợ người dùng thân thiện hơn; nhận dạng tiếng nói ngày nhận quan tâm nhiều để nghiên cứu ứng dụng vào thực tế, nhằm mục đích hỗ trợ tối đa người dùng thiết bị tăng thêm hiệu sử dụng thiết bị cá nhân thiết bị máy móc khác Ngày nay, công nghệ phát triển mạnh mẽ thay đổi liên tục, mà thiết bị phần cứng, đặc biệt thiết bị di động rơi vào trình bão hoà Nhận dạng tiếng nói lại trở thành đề tài ý đến hàng đầu với công nghệ thực tế ảo, máy tính lượng tử… Các ông lớn lĩnh vực công nghệ Google, Samsung, Apple… góp mặt tham gia nghiên cứu có cho sản phẩm riêng để ứng dụng vào thực tế cho sản phẩm Nhận thấy tiềm to lớn lĩnh vực này, với định hướng giáo viên hướng dẫn Em lựa chọn đề tài nghiên cứu: “Nghiên cứu nhận dạng tiếng nói ứng dụng để xây dựng hệ thống hỗ trợ dịch Cabin” Với mục đích nghiên cứu công nghệ nhận dạng tiếng nói, tìm xây dựng ứng dụng công nghệ vào lĩnh vực thực tế để hỗ trợ cho người dùng sản phẩm mang tính ứng dụng cao hữu ích cho sống Và hi vọng đóng góp nhỏ bé nghiên cứu thân phần sử dụng vào thực tế Trong đồ án này, em xin trình bày công cụ nhận dạng tiếng nói Sphinx với trình cài đặt, huấn luyện đánh giá mức độ hiệu công cụ này, nhằm có hướng thích hợp cho dự án Trong trình nghiên cứu thực đề tài, thân em tránh khỏi sai sót điểm hạn chế Mong quý thầy cô bạn tham gia đóng góp ý kiến để thân em hoàn thiện tốt đề tài thân, trình thực ứng dụng thực tế sau tốt TÓM TẮT NỘI DUNG Bài luận văn chia làm chương: - Chương I : Sơ lược dịch Cabin o Giới thiệu khái niệm dịch Cabin o Các thành phần cấu thành o Tình hình thực tế, đánh giá tính hiệu - Chương II: Tổng quan nhận dạng tiếng nói o Khái niệm nhận dạng tiếng nói o Giới thiệu số mô hình liên quan o Tính ứng dụng mô hình, đánh giá hiểu tiềm phát triển Nêu khó khăn hạn chế - Chương III: CMU Sphinx o Giới thiệu CMU Sphinx o Các thành phần cấu thành, nguyên lý hoạt động o Cài đặt chương trình o Xây dựng thư viện mẫu - Chương IV: Demo o Đưa lý chọn đề tài o Các bước thực o Đánh giá tính hiệu sản phẩm - Kết đạt được, hạn chế - Hướng phát triển CHƯƠNG I: SƠ LƯỢC VỀ DỊCH CABIN 1.1 Khái niệm dịch Cabin Dịch Cabin hiểu đơn giản trình phiên dịch trực tiếp, dịch song song Nhiệm vụ người dịch Cabin lắng nghe người đọc đồng thời phiên dịch lại thành ngôn ngữ mà người nghe yêu cầu Giúp cho đối thoại diễn hiệu liên tục Đây công việc phức tạp đòi hỏi phiên dịch viên việc am hiểu rõ ngôn ngữ phải có khả lắng nghe, phản xạ nhanh với tình yêu cầu tính xác cao 1.2 Thành phần Hình 1.1 : Mô hình dịch Cabin Thành phần mô hình dịch Cabin thường sử dụng bao gồm phiên dịch viên thiết bị thu phát âm cần thiết - Phiên dịch viên: người tham gia trực tiếp vào trình dịch Thông thường họ ngồi phòng kín gọi Cabin, nhiệm vụ họ đeo tai nghe để nghe trực tiếp âm từ người nói, đồng thời dịch song song với trình sang ngôn ngữ người nghe yêu cầu hiểu trò chuyện - Thiết bị thu âm, phát âm: bao gồm tai nghe, mic số thiết bị hỗ trợ khác để trình phiên dịch diễn dễ dàng với phiên dịch viên 1.3 Hiện trạng thực tế Thực tế, công việc mệnh danh dành cho “quái kiệt” mức độ khó, tính chất phức tạp công việc Trong thời điểm gần đồng thời, người phiên dịch phải lắng nghe người nói qua tai nghe dịch song song lúc cho người nghe lắng nghe nắm bắt nội dung câu chuyện Điều khiến người phiên dịch viên phải tập trung cao độ, lắng nghe, xử lý ứng biến nhanh nhạy để bắt kịp theo câu chuyện, phản ánh truyền đạt người nói Chưa hết, khó khăn gặp phải hội thảo mang tính đặc thù chuyên ngành, việc ngôn ngữ chuyên ngành trở ngại không nhỏ trình phiên dịch người phiên dịch viên Ngày nay, với hội nhập cao, đàm phán diễn liên tục với mật độ dày đặc, đặt cấp bách cho công việc Nhân lực để đáp ứng cho mô hình dịch Cabin ngày giảm, chất lượng phần bị ảnh hưởng nhiều Giá nhân công cho chương trình hội thảo không rẻ Trung bình khoảng từ 200$ - 300$/ngày Đặc biệt hội thảo mang tính đặc thù giá phải trả cho phiên dịch viên lên tới 1000$/ngày Điều cấp bách đặt cho ý tưởng ứng dụng giải pháp công nghệ thông tin vào phục vụ nhu cầu phiên dịch, nhằm giải toán dịch Cabin giảm lệ thuộc vào người trước 10 4.3 Chương trình Demo 4.3.1 Giao diện chương trình demo: Hình 4.4: Giao diện ứng dụng nhận dạng HDH Window Ứng dụng nhận dạng âm qua file âm qua MIC 4.3.2 Đánh giá a Dữ liệu dùng để đánh giá: Các nói giáo viên dạy tiếng anh (AJ Hope) với file âm chuẩn, không nhiễu, phát âm rõ ràng, có phụ đề xác tương ứng với liệu âm Các nói tổng thống Mỹ Kennedy, Nicxon với file âm bị nhiễu, phụ đề không tương ứng 100% với liệu âm b Phương pháp đánh giá Có hai phương pháp đánh giá phổ biến: - Phương pháp người: phương pháp thực trực tiếp người Các tester làm nhiệm vụ thống kê đưa từ công cụ biên dịch với văn gốc, sau tính tỉ lệ đưa đánh giá Tuy nhiên, phương pháp phù hợp với mô hình liệu nhỏ, với mô hình liệu lớn, việc đánh giá tốn nhiều thời gian chi phí bỏ để trả cho lượng nhân công tương xứng 43 - Phương pháp đánh giá tự động: BLEU(Bilingual Evaluation Understudy) thuật toán để đánh giá chất lượng văn máy dịch từ ngôn ngữ tự nhiên khác Ý tưởng phương pháp so sánh kết dịch tự động máy với dịch mẫu người, dịch máy giống với dịch mẫu người dịch xác Việc so sánh thực thông qua việc thống kê trùng khớp từ hai dịch có tính đến thứ tự chúng câu (phương pháp n-grams theo từ) Thang điểm BLEU tính khoảng từ – 1, điểm BLEU gần tỉ lệ dịch cao c Kết đánh giá File âm nhận dạng trùng với file huấn luyện - Các nói AJ Hope Hình 4.5: Blue score – AJHope – Direct 44 Hình 4.6: Accuracy – AJHope – Direct - Các nói Kennedy Hình 4.7: Blue score - Kennedy - Direct 45 Hình 4.8: Accuracy - Kennedy – Direct - Các nói Nixon Hình 4.9: Blue score - Nicxon – Direct 46 Hình 4.10: WER – Nicxon – Direct Hình 4.11: Accuracy - Nicxon - Direct Kết nhận dạng DNS tốt PocketSphinx, phần lý DNS hệ thống nhận dạng phụ thuộc người nói, PocketSphinx hệ thống nhận dạng không phụ thuộc người nói Nói cách khác, DNS biết trước số đặc tính người nói trước thực nhận dạng Nếu mô hình ngữ âm dùng để nhận dạng PocketSphinx thích nghi người nói trước nhận dạng, độ xác cải thiện 47 Nhận dạng chéo - Kennedy nhận dạng AJ Hope : Hình 4.12: Blue score - Kennedy nhận dạng AJHope Hình 4.13: WER – Kennedy nhận dạng AJHope 48 Hình 4.14: Accuracy - Kennedy nhận dạng AJHope - Kennedy nhận dạng Nicxon (DNS) Hình 4.15: Blue score - Kennedy nhận dạng Nicxon 49 Hình 4.16: WER – Kennedy nhận dạng Nicxon Hình 4.17: Accuracy - Kennedy nhận dạng Nicxon 50 - Nicxon nhận dạng Kennedy (DNS) Hình 4.18: Blue score - Kennedy nhận dạng Nicxon Hình 4.19: WER – Kennedy nhận dạng Nicxon 51 Hình 4.20: Accuracy - Kennedy nhận dạng Nicxon Kết nhận dạng chéo cho thấy, DNS dùng để nhận dạng người khác, kết tương đương thấp so với PocketSphinx (tùy mô hình ngữ âm) Như vậy, trường hợp cần thay DNS PocketSphinx phương án khả thi 52 KẾT LUẬN Kết đạt Sau trình tìm hiểu, nghiên cứu phương pháp nhận dạng tiếng nói, đề tài đạt mục tiêu sau: - Tìm hiểu khái niệm có liên quan đến dịch Cabin, mô hình dịch Cabin điều kiện khó khăn thuận lợi mô hình - Tìm hiểu khái niệm có liên quan đến hệ nhận dạng tiếng nói từ hiểu vận dụng số yếu tố quan trọng việc sử dụng công cụ hỗ trợ - Tìm hiểu phương pháp cài đặt công cụ hỗ trợ xây dựng hệ nhận dạng tiếng nói Sphinx Trong bao gồm việc chi tiết hóa bước cài đặt thực Các bước xây dựng mô hình huấn luyện - Xây dựng huấn luyện với liệu annk - Đánh giá khả nhận dạng PocketSphinx DNS - Huấn luyện thích ứng thành công - Xây dựng giao diện nhận dạng tiếng nói Desktop Những điểm hạn chế Những mặt hạn chế: - Bộ từ vựng Để có tự vựng lớn đòi hỏi phải bỏ nhiều công sức bao gồm thu thập liệu, xây dựng mô hình phiên âm xác, thu âm, phân tích ngữ pháp,… - Mô hình ngữ âm hạn chế nên độ xác chưa cao - Chưa thực huấn luyện nhiều ngôn ngữ để ứng rộng rãi vào thực tế - Chưa tối ưu thuật toán tăng tốc độ nhận dạng, xử lý giọng nói Hướng nghiên cứu phát triển Do việc thu âm xử lý liệu chưa phong phú nên kết chưa tốt Việc khắc phục cách thu nhiều mẫu huy động thêm người tình nguyện để thu âm Có thể xem xét tận dụng nguồn âm tiếng nói radio, internet để làm phong phú thêm liệu huấn luyện 53 Ngoài cần phát triển thêm phần sau: - Khảo sát thêm đặc điểm ngữ âm tiếng Việt huấn luyện nhận dạng tiếng Việt - Cải tiến phương pháp tách từ, tách tạp âm câu để có kết nhận dạng tốt - Tìm hiểu thêm mô hình ngôn ngữ thuật toán tìm kiếm nhận dạng tiếng nói để tăng tốc độ nhận dạng - Mở rộng vốn từ vựng tự điển, thực thu âm số với quy mô rộng rãi hơn, đa dạng giọng nói giúp nhận dạng xác - Xây dựng ứng dụng cụ thể hóa sử dụng mô hình huấn luyện Các ứng dụng tương tác người thiết bị giọng nói, hỗ trợ thông minh cho thiết bị hỗ trợ hoạt động người khuyết tật 54 TÀI LIỆU THAM KHẢO S Franz, “Analysis of available Software”,http://simonlistens.org/index.php? id=124&L=1 http://julius.sourceforge.jp/en_index.php http://www.voxforge.org/home/downloads http://www.keithv.com/software/ 5.http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language %20Models/ Willie Walker, Paul Lamere, Philip Kwok, Bhiksha Raj, Rita Singh, Evandro Gouvea, Peter Wolf, Joe Woelfel, Sphinx-4: A Flexible Open Source Framework for Speech Recognition, URL: http://twiki.di.uniroma1.it/pub/NLP/WebHome/Sphinx4Whitepaper.pdf Akinobu Lee and Tatsuya Kawahara, Recent Development of Open-Source Speech Recognition Engine Julius, Nagoya Institute of Technology, Nagoya, Dragon Nartually Speaking, Whitepaper Joel Gould, Implementation and Acceptance of NatLink, a Python-Based Macro System for Dragon NaturallySpeaking, Recently of Dragon Systems 10 Akinobu Lee The julius book: http://globalbase.dl.sourceforge.jp/julius/47534/Juliusbook-4.1.5.pdf 11 http://julius.sourceforge.jp/en_index.php?q=index-en.html\#about_models 12 http://www.repository.voxforge1.org/downloads/Main/Tags/Releases/ 13 Takehito Utsuro, Yasuhiro Kodama, Tomohiro Watanabe, Hiromitsu Nishizaki, and Seiichi Nakagawa An empirical study on multiple lvcsr model combination by machine learning In Daniel Marcu Susan Dumais and Salim Roukos, editors, HLT-NAACL 2004: Short Papers, pages 1316, Boston, Massachusetts, USA, May - May 2004 Association for Computational Linguistics 14 Sphinx4 Team, Sphinx4 Architecture Overview, Sphinx4 MIT Lunch Discussion December 18, 2002 15 http://www.jaivox.com/pocketsphinx.html 55 16 Steve Young, Gunnar Evermann, Mark Gales, Thomas Hain, Dan Kershaw, Xunying (Andrew) Liu, Gareth Moore, Julian Odell, Dave Ollason, Dan Povey, Valtcho Valtchev, Phil Woodland, HTK Book, Cambridge University Engineering Department, 2009 17 L Rabiner, A Tutorial on Hidden Markov Models and Selected Application in Speech Recognition, 1989 18 B.H Juang, Lawrence R Rabiner, "Automatic Speech Recognition – A Brief History of the Technology" 19 S Furui, "50 years of progress in speech and speaker recognition" 20 [Online] Available: http://www.cslu.ogi.edu/toolkit/ [Accessed 2012] 21 "Digital audio," [Online] Available: http://en.wikipedia.org/wiki/Digital_audio [Accessed 2012] 22 Red Hat, [Online] Available: http://www.cygwin.com/ [Accessed 2012] 23 Carnegie Mellon University, [Online] http://cmusphinx.sourceforge.net/ [Accessed 2012] 24 "Training Acoustic Model For CMUSphinx," Carnegie Mellon University, [Online] Available: http://cmusphinx.sourceforge.net/wiki/tutorialam [Accessed 2012] 25 [Online] Available: http://audacity.sourceforge.net/ [Accessed 2012] 26 Quách Tuấn Ngọc, Mai Công Nguyên (1998), Nhận dạng lời nói liên tục với từ vựng lớn, Tiểu luận môn Nhận dạng tiếng nói, Đại học Bách khoa Hà Nội 27 Quách Tuấn Ngọc, Phạm Xuân Trường (1998), Phương pháp phân tích xử lý nhận dạng tiếng nói, Tiểu luận môn Xử lý tiếng nói, Đại học Bách khoa Hà Nội 28 Phan Nguyễn Phục Quốc, Hà Thúc Phùng (2009), Hệ thống nhận dạng tiếng nói, Luận văn Đại học, Đại học Bách khoa TP.HCM 29 https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20 Models/ 30 https://github.com/ibillxia/CMUSphinx 31 http://stackoverflow.com/questions/22141873/cmu-sphinx-acoustic-modeltraining-hangs 56 NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN 57 [...]... bị chạy Hệ điều hành Android Đây là một ứng dụng khá thú vị, nhằm hỗ trợ cho người dùng các giao tiếp cơ bản như tìm tên trong danh bạ, gọi điện, tìm đường,… thông qua việc điều khiển bằng giọng nói 2.3 Ứng dụng của nhận dạng tiếng nói Ứng dụng nhận dạng tiếng nói ngày nay đang được sử dụng ngày một rộng rãi và phổ biến Trên thế giới đã có rất nhiều nghiên cứu về hệ thống nhận dạng tiếng nói (tiếng Anh)... động qua điện thoại - Hệ thống truy vấn thông tin thoại - Hệ thống thông dịch tiếng nói xuyên ngữ tự động - Các trạm kiểm soát, hệ thống điều khiển sử dụng tiếng nói - Các ứng dụng tiếng nói trên thiết bị di động Về mặt kinh tế và thương mại, công nghệ nhận dạng tiếng nói đã thay đổi cách con người tương tác với hệ thống và thiết bị, không còn bó buộc trong cách thức tương tác truyền thống (như thông qua... vấn thông tin tiếng Việt, nhận dạng tiếng nói, hệ thống giao tiếp giữa người và máy, tìm kiếm bằng giọng nói, Trong thời gian gần đây, nhóm sinh viên đại học Quốc Gia Hà Nội do TS Phan Xuân Hiếu làm trưởng nhóm đã cho ra đời ứng dụng Trợ lý ảo VAV” cũng sử dụng chương trình nhận dạng tiếng nói để hỗ trợ người dùng thực hiện giao tiếp người – máy thông qua quá trình nhận dạng tiếng nói và thực hiện... kí hiệu ngữ âm - Nhận dạng tiếng nói là một quá trình nhận thức Thông tin về ngữ nghĩa và suy đoán có giá trị trong quá trình nhận dạng tiếng nói, nhất là khi tin về âm học không rõ ràng 2.1.3 Cách tiếp cận Các tiếp cận nhận dạng tiếng nói bằng thống kê bao gồm: sử dụng mô hình Markov ẩn (HMM), mạng noron, sử dụng cơ sở tri thức,… 2.2 Một số công trình nghiên cứu về nhận dạng tiếng nói 2.2.1 Quốc tế... QUAN VỀ NHẬN DẠNG TIẾNG NÓI 2.1 Tổng quan về nhận dạng tiếng nói 2.1.1 Khái niệm Nhận dạng tiếng nói là một quá trình nhận dạng mẫu, với mục đích là phân lớp thông tin đầu vào là các tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã được học trước đó và lưu trữ trong bộ nhớ Các mẫu là các đơn vị nhận dạng, chúng có thể là các từ, hoặc các âm vị Nếu các mẫu này là bất biến và không thay đồi thì công. .. việc nhận dạng tiếng nói trở nên đơn giản hơn bằng các so sánh các tín hiệu tiếng nói cần nhận dạng với các mẫu đã được học và lưu trữ trong bộ nhớ Khó khăn cơ bản của nhận dạng tiếng nói đó là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữa tiếng nói của những người nói khác nhau, tốc độ nói, ngữ cảnh và môi trường âm học khác nhau Xác định những thông tin biên thiên nào của tiếng. .. tắc của nhận dạng tiếng nói Các nghiên cứu về nhận dạng tiếng nói dựa trên 3 nguyên tắc cơ bản: - Tín hiệu tiếng nói được biểu diễn chính xác bởi các giá trị phổ trong một khung thời gian ngắn Nhờ vậy ta có thể trích ra các đặc điểm tiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này là dữ liệu để làm dữ liệu nhận dạng tiếng nói - Nội dung của tiếng nói được biểu diễn dưới dạng chữ viết... nhóm nghiên cứu chính về bài toán nhận dạng tiếng nói liên tục với bộ từ vựng lớn (LVCSR) Nhóm đầu tiên thuộc Viện Công nghệ Thông tin do PGS Lương Chi Mai ứng đầu, với phương pháp ANN và công cụ CSLU được sử dụng Nhóm thứ hai thuộc trường Đại học Khoa học Tự nhiên thành phố HồChí Minh do PGS Vũ Hải Quân ứng đầu, với phương pháp HMM và công cụ HTK được sử dụng, các nghiên cứu của nhóm tập trung vào... áp dụng suốt một thời 13 gian dài Ngày nay, hầu hết các hệ thống nhận dạng tiếng nói đều sử dụng tổ hợp đặc trưng này Những nhà khoa học thuộc công ty IBM là những người đi tiên phong trong việc phát triển mô hình ngôn ngữ (Language Model –LM) Đây là một công cụ hiệu quả trong việc lựa chọn chuỗi từ nhận dạng và đã được áp dụng thành công trong tất cả các hệ thống ASR ngày nay, đặc biệt là các hệ thống. .. tiếp người-máy là một lĩnh vực nghiên cứu lớn và khó nhưng lại có nhiều ứng dụng thực tiễn Tiếng nói là một phương tiện giao tiếp tự nhiên nhất của con người và vì vậy, nghiên cứu để máy tính có thể hiểu tiếng nói của con người, hay còn gọi là nhận dạng tiếng nói tự động (Automatic Speech Recognition –ASR), đã trải qua quá trình 70 năm phát triển Những nỗ lực nghiên cứu đầu tiên về ASR đã được tiến ... đề tài nghiên cứu: Nghiên cứu nhận dạng tiếng nói ứng dụng để xây dựng hệ thống hỗ trợ dịch Cabin Với mục đích nghiên cứu công nghệ nhận dạng tiếng nói, tìm xây dựng ứng dụng công nghệ vào lĩnh... Accuracy - Kennedy nhận dạng Nicxon 52 MỞ ĐẦU Công nghệ nhận dạng tiếng nói, lĩnh vực dành quan tâm hàng đầu nhà nghiên cứu lĩnh vực Công nghệ thông tin Ngay từ năm kỉ XX, tức công nghệ thông tin... TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI 2.1 Tổng quan nhận dạng tiếng nói 2.1.1 Khái niệm Nhận dạng tiếng nói trình nhận dạng mẫu, với mục đích phân lớp thông tin đầu vào tín hiệu tiếng nói thành dãy