Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 66 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
66
Dung lượng
1,7 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Tiểu luận mơn Chun nghiệp Cơng nghệ CƠNG NGHỆ NHẬN DIỆN GIỌNG NĨI SỬ DỤNG NEURAL NETWORK Nhóm – Lớp học phần ELT 2028 – Nguyễn Quy Thành An Nguyễn Duy Hùng Phạm Tường Minh Trần Đăng Minh Tâm Nguyễn Cơng Trình Vũ Thành Vân Tháng 12 – 2021 LỜI MỞ ĐẦU Thời đại 4.0 mở cho người nhiều tiện ích sống qua sản phẩm khoa học công nghệ đại Với phát triển máy tính mạng Internet, cơng nghệ tưởng chừng có phim viễn tưởng đời đóng góp vào đời sống xã hội Trí tuệ nhân tạo (AI) bắt đầu xuất nhiều hơn, không ngừng thêm vào ứng dụng phục vụ sống Thay phải điều khiển hay nhập liệu qua nút điều khiển hay bàn phím thơng thường, người ln tìm cách để điều khiển máy móc ứng dụng giọng nói Từ mong muốn đó, cơng nghệ nhận diện giọng nói đời Tuy khơng cịn mẻ, song với xuất tiến công nghệ, đặc biệt tiến AI, Cơng nghệ nhận diện giọng nói đứng trước hội phát triển mạnh mẽ vượt bậc, đưa tiện ích sống tiếp lên tầm cao Với niềm u thích cơng nghệ hứng thú với nhận diện giọng nói, chúng tơi chọn Cơng nghệ nhận diện giọng nói làm chủ đề tiểu luận Chúng hi vọng thông qua nó, đưa nhìn tổng quan Cơng nghệ nhận diện giọng nói Recurrent Neural Network – công nghệ hiệu lĩnh vực Nhận diện giọng nói, với phát triển công nghệ tương lai Chúng mong qua trình thực tiểu luận này, thành viên nhóm tiến bộ, phát triển tư kĩ sư phát triển công nghệ sau Cuối cùng, xin cảm ơn PGS.TS Nguyễn Nam Hồng hướng dẫn, bảo để chúng tơi hoàn thiện tiểu luận Cảm ơn thành viên nhóm làm việc chăm chỉ, suốt thời gian qua Trong q trình làm việc, khơng tránh khỏi việc có sai sót, mong nhận xét, đóng góp người để chúng tơi cải thiện cơng việc Nhóm thực tiểu luận Nhóm | MỤC LỤC LỜI MỞ ĐẦU MỤC LỤC DANH MỤC HÌNH ẢNH DANH MỤC BẢNG BIẺU TÓM TẮT MỤC ĐÍCH Phần 1: TỔNG QUAN VỀ CÔNG NGHỆ NHẬN DIỆN GIỌNG NĨI 1.1 Cơng nghệ nhận diện giọng nói gì? 1.2 Lịch sử phát triển cơng nghệ nhận diện giọng nói 1.3 Mơ hình vận hành cơng nghệ nhận diện giọng nói: 1.4 Cơng nghệ nhận diện giọng nói áp dụng vào ứng dụng nào? 1.5 Sự cần thiết việc phát triển công nghệ nhận diện giọng nói 10 Phần 2: CƠNG NGHỆ NHẬN DIỆN GIỌNG NĨI SỬ DỤNG NEURAL NETWORK 11 2.1 Vài nét Neural Network 11 2.2 Nhận diện giọng nói sử dụng Neural Network 11 2.2.1 Xây dựng hệ thống 12 2.2.2 Ngơn ngữ lập trình, thư viện luyện tập 14 2.2.3 Xây dựng thuật toán 14 2.3 Hiệu quả, ưu điểm hạn chế 16 2.3.1 Hiệu 16 2.3.2 Ưu điểm 18 2.3.3 Hạn chế 18 Phần 3: TƯƠNG LAI CỦA CÔNG NGHỆ NHẬN DIỆN GIỌNG NÓI 19 3.1 Khắc phục hạn chế 19 3.1.1 Cắt bỏ gradient 19 3.1.2 Khởi tạo đồng 19 Nhóm | 3.1.3 LSTM (Long-Short term memory) 20 3.1.4 GRU (Gated Recurrent unit) 20 3.2 Định hướng phát triển 21 3.2.1 Cá nhân hóa trải nghiệm người dùng 21 3.2.2 Áp dụng rộng rãi cho nhiều lĩnh vực, đặc biệt lĩnh vực y tế 21 3.2.3 “Con người hóa” 21 3.2.4 Độ xác tuyệt đối 22 3.3 Công nghệ tiềm – Spike Neural Networks 22 KẾT LUẬN 24 TÀI LIỆU THAM KHẢO 24 Nhóm | DANH MỤC HÌNH ẢNH Hình 2.1 Hình 2.2 Hình 2.3 Hình 2.4 Hình 3.1 Hình 3.2 Hình 3.3 Hình 3.4 Các nút mạng Recurrent Neural Network [8] 12 Cấu trúc Recurrent Neural Network [9] 13 Sơ đồ khối miêu tả đơn giản thuật toán [7] 15 Biểu đồ so sánh độ xác độ sâu lớp ẩn [9] 17 Ví dụ đơn vị LSTM [16] 20 Một ví dụ đơn vị GRU [17] 20 Khảo sát độ xác trợ lý ảo năm 2019 [20] 22 Một ví dụ SNN [21] 23 DANH MỤC BẢNG BIẺU Bảng 2.1 Độ xác cụ thể cụm từ thử nghiệm [9] 16 Bảng 2.2 Độ xác thời gian phản hồi [9] 17 Bảng 2.3 So sánh độ xác mơ hình nhận diện giọng nói [13] 18 Nhóm | TĨM TẮT Cơng nghệ nhận diện giọng nói có từ hàng thập kỉ trước, trải qua nhiều thăng trầm, người tạo nhiều ứng dụng từ phía trước cịn tiềm tiếp tục cần khai phá Hiện tại, nhận diện giọng nói có bước phát triển vượt bậc nhờ đời trí tuệ nhân tạo (AI) Neural Network, một phân loại AI mô tả hệ thống thần kinh người coi công nghệ phù hợp Trong số mơ hình Neural Network khác phát triển, Recurrent Neural Network (RNN) xem đại hiệu hẳn, đặc điểm đem lại ưu điểm để áp dụng vào nhận diện giọng nói chứng minh tiểu luận thơng qua số liệu nghiên cứu Cuối cùng, tiểu luận trình bày hướng giải hạn chế RNN nghiên cứu triển khai, với hướng hồn thiện để đưa gần cơng nghệ nhận diện giọng nói vào thực tế sống MỤC ĐÍCH - - Có nhìn tổng quan cơng nghệ nhận diện giọng nói, ứng dụng nhu cầu phát triển cơng nghệ nhận diện giọng nói Biết thêm lịch sử trình phát triển nhận diện giọng nói Tìm hiểu sở lý thuyết Neural Network Tìm hiểu cách sử dụng Recurrent Neural Network cho cơng nghệ nhận diện giọng nói, trả lời câu hỏi lại cơng nghệ tiến tiến nhận diện giọng nói, ưu nhược điểm hướng giải Tìm hiểu định hướng phát triển tương lai Cơng nghệ nhận diện giọng nói Cải thiện khả làm việc nhóm, kĩ soạn thảo văn khoa học khả thuyết trình Nhóm | Phần 1: TỔNG QUAN VỀ CƠNG NGHỆ NHẬN DIỆN GIỌNG NĨI 1.1 Cơng nghệ nhận diện giọng nói gì? Nhận dạng giọng nói đề cập đến khả nhận giải thích lệnh giọng nói thiết bị cụ thể Nói cách đơn giản, cơng nghệ nhận dạng giọng nói tương tác phản hồi lệnh người [1] 1.2 Lịch sử phát triển công nghệ nhận diện giọng nói Trước đây, việc điều khiển cỗ máy cách nói chuyện với chúng câu chuyện khoa học viễn tưởng Nhưng viễn tưởng dần trở thành thực với phát triển vượt bậc công nghệ, đặc biệt phát triển Trí tuệ nhân tạo(AI) tảng khác để tạo giao diện người dùng cho phép sử dụng giọng nói để điều khiển thiết bị công nghệ Lịch sử nhận diện giọng nói bắt đầu vào năm 1877 Thomas Edison phát minh máy ghi âm, thiết bị ghi tái tạo âm Mãi năm 1952 cơng nghệ nhận diện giọng nói có phát triển rõ ràng kỹ sư Bell Labs phát triển phận nhận dạng chữ số tự động có tên Audrey Audrey cao feet, có nhiều đặc điểm tương tự với tụ điện bao gồm khuếch đại lọc Audrey nhận 10 chữ số nói giọng nói Mặc dù thiết bị nhận đầu vào giọng nói với độ xác lên đến 97-99% kích thước lớn, chi phí cao thiết bị điện tử phức tạp nên trở thành sản phẩm thương mại hóa Tuy nhiên, thiết bị Audrey đánh dấu khởi đầu công nghệ nhận dạng giọng nói tiếp tục cho nghiên cứu sau Hệ thống Audrey xem thiết bị nhận dạng giọng nói Năm 1962, máy Shoebox IBM phát triển, nhận 16 từ tiếng anh, 10 chữ số lệnh số học Từ năm 1971-1976, Bộ Quốc phòng Mỹ tài trợ cho chương trình DARPA SUR (Nghiên cứu hiểu lời nói), dẫn đến phát triển Harpy tạo Carnegie Mellon hiểu 1011 từ [1] Vào năm 1984, Cơng nghệ nhận dạng giọng nói hệ SpeechWorks Nuance giới thiệu thông qua hệ thống tổng đài trả lời tự động (IVR) Những IVR nhận giọng nói người qua gọi thực nhiệm vụ giao cho chúng Bất có điện thoại nhận tất thơng tin tìm thời gian chiếu phim địa phương, nghe thông tin Phần 1: Tổng quan Công nghệ nhận diện giọng nói | giao thơng, báo giá cổ phiếu, đặt chuyến bay máy bay, chuyển tiền tài khoản, đặt mua thuốc theo toa,… Mọi thứ xoay quanh điện thoại cầm tay giọng nói người Các hệ thống IVR trở thành xu hướng chủ đạo năm 2000 phần dịch vụ chăm sóc hỗ trợ khách hàng ngày nay.[1] Năm 1992, Apple sản xuất hệ thống nhận dạng giọng nói liên tục theo thời gian thực hiện, nhận lên đến 20000 từ Năm 2006, Apple giới thiệu khái niệm Siri, cho phép người dùng tương tác với sản phẩm hãng giọng nói Sau đó, Google giới thiệu nghiên cứu hỗ trợ giọng nói vào năm 2007 Đến năm 2008, Google gây sốt với việc cung cấp ứng dụng Google Voice Search dành cho Iphone Năm 2010, Google giới thiệu hệ thống nhận dạng giọng nói cá nhân hóa, thiết bị Android ghi lại truy vấn giọng nói người dùng khác để phát triển mơ hình giọng nói nâng cao Nó bao gồm 230 tỷ từ tiếng anh [1] Năm 2011, cuối Siri Apple triển khai Iphone4S, dựa điện toán đám mây Năm 2014, Amazon giới thiệu Amazon Echo, loa thơng minh tích hợp trợ lý ảo Chúng kết nối với ứng dụng di động thông qua Alexa Tương tự, đối thủ cạnh tranh với Amazon ông lớn công nghệ Google Apple giới thiệu Google Home, Apple Homepod để cải thiện trải nghiệm người dùng họ văn phịng, nhà chí trung tâm mua sắm Năm 2015, Microsoft công bố xuất Cortana cho máy tính để bàn thiết bị di động Windows 10 phần việc hợp Windows Phone hệ điều hành máy tính hãng công nghệ này, đánh dấu xuất ông lớn tham gia vào đua cơng nghệ nhận diện giọng nói Vào tháng 5-2016, Trợ lý Google (Google Assistant) trợ lý cá nhân ảo phát triển Google cho thiết bị di động nhà thông minh, mắt lần đầu hội nghị nhà phát triển hãng Không Google Now, Trợ lý Google tham gia trò chuyện hai chiều Trợ lý Google đưa vào ứng dụng nhắn tin Google Allo, loa thông minh Google Home Năm 2017, Google Assistant tiếp tục mở rộng hỗ trợ cho lượng lớn thiết bị, bao gồm xe thiết bị nhà thông minh Các chức Assistant bổ sung nhà phát triển bên thứ [1] [2] Phần 1: Tổng quan Cơng nghệ nhận diện giọng nói | 1.3 Mơ hình vận hành cơng nghệ nhận diện giọng nói: Tín hiệu-> Tín hiệu mã hóa(dạng số)->Xử lý nhận dạng >Đầu Có hai phương thức phổ biến sau: -Điện toán đám mây: Cách thức hoạt động cách nhận dạng, xử lý ngôn ngữ máy chủ công ty cung cấp dịch vụ (google, facebook, zalo,…) thông qua kết nối internet Phương thức hoạt động hiệu quả, xác cao nhìn chung tương đối chậm lúc người dùng phải có internet -Tích hợp app: Q trình hoạt động nội ứng dụng Nhờ mà tốc độ xử lý nhanh chóng Người sử dụng khơng cần phải dùng đến internet sử dụng cơng nghệ nhận dạng giả lập giọng nói app Tuy nhiên, người dùng cần phải ln cập nhật ứng dụng [1] 1.4 Cơng nghệ nhận diện giọng nói áp dụng vào ứng dụng nào? Tốc độ điều người ta nhắc đến đề cập đến câu hỏi Thay phải ngồi nhập tay email, soạn văn bản, đặt lịch hẹn, điện thoại máy tính gây tốn thời gian, chí sai sót Giờ sử dụng giọng nói phương thức để nhập liệu Nó nhanh chóng, đơn giản, thuận tiện vô dễ dàng [2] Không dừng lại việc nhập liệu, nhận dạng giọng nói cịn ứng dụng hệ thống điều khiển hệ sinh thái SMARTHOME Nhận diện giọng nói cịn sử dụng nhiều lĩnh vực trí tuệ nhân tạo(Artificial Intelligence) Siri, Google Assistant hay Amazon Alexa ví dụ điển hình [1] Ngồi cơng nghệ nhận dạng giọng nói đánh giá sản phẩm tuyệt vời dành cho người khiếm thị Những người khiếm thị tận hưởng tiến cơng nghệ tương tự mà người bình thường làm, khơng cịn khoảng cách xuất khiếm khuyết giác quan [1] Phần 1: Tổng quan Công nghệ nhận diện giọng nói | 1.5 Sự cần thiết việc phát triển cơng nghệ nhận diện giọng nói Cơng nghệ ln ln phát triển, kéo theo nhu cầu sử dụng người dùng tăng theo Các cơng cụ nhận diện giọng nói đạt thành tựu định, nhiều mặt hạn chế Nó đặt yêu cầu cho nhà phát triển cơng nghệ nhận diện giọng nói việc cải thiện hiệu suất độ chinh xác cho cơng nghệ Các hệ thống nhà thơng minh, trợ lý ảo hay robot sử dụng trí tuệ nhân tạo ngày gia tăng mặt số lượng, chất lượng Do đó, cơng nghệ nhận diện giọng nói cần phát triển theo, phục vụ nhu cầu cải tiến cho hệ thống thơng minh Phần 1: Tổng quan Cơng nghệ nhận diện giọng nói | 10 Ngồi ra, người ta cịn sử dụng mơ hình khác RNN LSTM biến thể GRU LSTM(Long short term memory) GRU(Gated Recurrent unit) Tương lai Công nghệ nhận diện giọng nói I Khắc phục hạn chế II Định hướng phát triển THEAUTOMATIC FUTURE OFSPEECH AUTOMATIC SPEECH THE FUTURE OF RECOGNITION RECOGNITION TECHNOLOGYTECHNOLOGY Cá nhân hóa trải nghiệm người dùng Phân biệt người sử dụng cung cấp nhiều trải nghiệm mang tính cá nhân Áp dụng rộng rãi cho nhiều lĩnh vực, đặc biệt lĩnh vực y tế “Con người hóa” Đưa ngữ cảnh vào q trình nhận dạng Sự xác tuyệt đối Biểu đồ khảo sát sự chinh xác hệ thống trợ lý ảo năm 2019 Tương lai Cơng nghệ nhận diện giọng nói I Khắc phục hạn chế II Định hướng phát triển III Công nghệ tiềm THEAUTOMATIC FUTURE OFSPEECH AUTOMATIC SPEECH THE FUTURE OF RECOGNITION RECOGNITION TECHNOLOGYTECHNOLOGY Đặt vấn đề: Độ bảo mật thơng tin Cơng nghệ nhận diện giọng nói dựa vào điện tốn đám mây Các vấn đề Tớc độ xử lí thơng tin u cầu tìm cơng nghệ có khả xử lý nhanh tích hợp ứng dụng Trong vài năm trở lại đây, spike neural network thu hút nhiều sự quan tâm Spike neural networks coi mạng lưới nơ ron nhân tạo hệ thứ mạng thần kinh nhân tạo có chế xử lí giớng hệ thống dây thần kinh tự nhiên SNN phù hợp để đại diện xử lý các tín hiệu khơng-thời gian, chúng có tiềm tuyệt vời cho các nhiệm vụ nhận dạng giọng nói Kết luận • Cơng nghệ nhận diện giọng nói cơng nghệ có lịch sử phát triển lâu đời, có tiềm nhu cầu phát triển lớn sớng đại • Recurent Neural Network nhận diện giọng nói mơ hình cơng nghệ tiên tiến, đại, có độ chinh xác cao có ưu điểm so với mơ hình khác • Các vấn đề tồn tại Recurent Neural Network nghiên cứu tìm hướng giải • Định hướng nghiên cứu cơng nghệ nhận diện giọng nói tương lai nhằm mục tiêu đạt độ chinh xác tuyệt dối, cũng phục vụ nhiều vào sớng • Một cơng nghệ có tiềm cho việc nâng cao tinh hiệu chinh xác nhận diện giọng nói nghiên cứu phát triển Spike Neural Network Tài liệu tham khảo “Sonix,” Sonix, Inc , [Trực tuyến] Available: https://sonix.ai/history-of-speech-recognition Fang Chen, Kristiina Jokinen, Speech Tenology - Theory and Applications, Springer, 2020 F Millstein, “Natural language processing with python: natural language processing using NLTK” Kalid Al Smadi, Huthaifa Al Issa, Issam Trrad, ProfTakialddin Al Smadi, “Artificial Intelligence for Speech Recognition Based on Neural Networks,” Signal and Information Processing, tập 06, số 02, pp 66-72, 2015 Choudhary, A and Kshirsagar, R., “Process Speech Recognition System Using Artificial Intelligence Technique.,” International Journal of Soft Computing and Engineering, 2012 Sophomore Collegue, Standford University, “Neural Network - History,” 2010 [Trực tuyến] Available: https://cs.stanford.edu/people/eroberts/courses/soco/ projects/neural-networks/History/history1.html Vyacheslav Lyashenko, Farah Laariedh, Svitlana Sotnik, M Ayaz Ahmad, “Recognition of Voice Commands Based on Neural Network,” TEM Journal, 2021 Beck, M W., “NeuralNetTools: Visualization and Analysis Tools for Neural Networks,” Journal of Statistical Software, pp 1-20, 2018 Tài liệu tham khảo Glackin, C., Wall, J., Chollet, G., Dugan, N., &Cannings, N., “TIMIT and NTIMIT Phone Recognition Using Convolutional Neural Networks.,” International Conference on Pattern Recognition Applications and Methods, 2018 Praveen Edward James, Mun Hou Kit, Chockalingam Aravind Vaithilingam, Alan Tan Wee Chiat, “Recurrent neural network-based speech recognition using MATLAB,” Int J Intelligent Enterprise, tập 7, số 1/2/3, 2020 Sewak, M., Karim, M R., & Pujari, P., Practical convolutional neural networks: implement advanced deep learning models using Python, Packt Publishing, 2018 Hinton, G., Deng, L., Yu, D., Dahl, G.E., Mohamed, A-R., Jaitly, N and Kingsbury, B , “Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups,” IEEE International Conference in Acoustics, Speech and Signal Processing (ICASSP), 2019 Ahmad, M A., Baker, J H., Tvoroshenko, I., Lyashenko, V., “Computational complexity of the accessory function setting mechanism in fuzzy intellectual systems,” International Journal of Advanced Trends in Computer Science and Engineering, tập 8, số 5, pp 2370-2377, 2019 Roger Gross, “Lecture 15: Exploding and Vanishing Gradients” Tài liệu tham khảo Roberto Cahuantzi, Xinye Chen, Stefan Güttel , “A comparison of LSTM and GRU networks for learning symbolic sequences,” 2021 Jibin Wu, Emre Yılmaz, Malu Zhang, Haizhou Li, Kay Chen Tan, “Deep Spiking Neural Networks for Large Vocabulary Automatic Speech Recognition,” Frontiers online, 2021 Clearbridge mobile, “7 Key Predictions for the Future Of Voice Assistants and AI,” 2021 [Trực tuyến] Available: https://clearbridgemobile.com/7-key-predictions-for-thefuture-of-voice-assistants-and-ai/ Awni Hannun, “The History of Speech Recognition to the Year 2030,” 2021 Tiểu luận Cơng nghệ nhận diện giọng nói Sử dụng Neural Network Nhóm • Nguyễn Quy Thành An • Nguyễn Duy Hùng • Phạm Tường Minh • Trần Đăng Minh Tâm • Nguyễn Cơng Trình • Vũ Thành Vân Tiểu luận Cơng nghệ nhận diện giọng nói Sử dụng Neural Network Nhóm Cảm ơn, vì lắng nghe! ... xã hội điều tất yếu nhận diện giọng nói sản phẩm mình 03 Nhận diện giọng nói | Sử dụng Neural Network Nhận diện giọng nói Sử dụng Neural Network • Trong nhận diện giọng nói, phải trải qua nhiều... Giới thiệu Nhận diện giọng nói sử dụng Neural Network 02 04 Tổng quan công nghệ nhận diện giọng nói Tương lai cơng nghệ nhận diện giọng nói 01 | Giới thiệu tiểu luận Giới thiệu tiểu luận Mục đích... 1.4 Cơng nghệ nhận diện giọng nói áp dụng vào ứng dụng nào? 1.5 Sự cần thiết việc phát triển cơng nghệ nhận diện giọng nói 10 Phần 2: CÔNG NGHỆ NHẬN DIỆN GIỌNG NÓI SỬ DỤNG NEURAL NETWORK