Tiểu luận môn Chuyên nghiệp trong Công nghệ CÔNG NGHỆ NHẬN DIỆN GIỌNG NÓI SỬ DỤNG NEURAL NETWORK

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Tiểu luận mơn Chun nghiệp Cơng nghệ CƠNG NGHỆ NHẬN DIỆN GIỌNG NĨI SỬ DỤNG NEURAL NETWORK Nhóm – Lớp học phần ELT 2028 – Nguyễn Quy Thành An Nguyễn Duy Hùng Phạm Tường Minh Trần Đăng Minh Tâm Nguyễn Cơng Trình Vũ Thành Vân Tháng 12 – 2021 LỜI MỞ ĐẦU Thời đại 4.0 mở cho người nhiều tiện ích sống qua sản phẩm khoa học công nghệ đại Với phát triển máy tính mạng Internet, cơng nghệ tưởng chừng có phim viễn tưởng đời đóng góp vào đời sống xã hội Trí tuệ nhân tạo (AI) bắt đầu xuất nhiều hơn, không ngừng thêm vào ứng dụng phục vụ sống Thay phải điều khiển hay nhập liệu qua nút điều khiển hay bàn phím thơng thường, người ln tìm cách để điều khiển máy móc ứng dụng giọng nói Từ mong muốn đó, cơng nghệ nhận diện giọng nói đời Tuy khơng cịn mẻ, song với xuất tiến công nghệ, đặc biệt tiến AI, Cơng nghệ nhận diện giọng nói đứng trước hội phát triển mạnh mẽ vượt bậc, đưa tiện ích sống tiếp lên tầm cao Với niềm u thích cơng nghệ hứng thú với nhận diện giọng nói, chúng tơi chọn Cơng nghệ nhận diện giọng nói làm chủ đề tiểu luận Chúng hi vọng thông qua nó, đưa nhìn tổng quan Cơng nghệ nhận diện giọng nói Recurrent Neural Network – công nghệ hiệu lĩnh vực Nhận diện giọng nói, với phát triển công nghệ tương lai Chúng mong qua trình thực tiểu luận này, thành viên nhóm tiến bộ, phát triển tư kĩ sư phát triển công nghệ sau Cuối cùng, xin cảm ơn PGS.TS Nguyễn Nam Hồng hướng dẫn, bảo để chúng tơi hoàn thiện tiểu luận Cảm ơn thành viên nhóm làm việc chăm chỉ, suốt thời gian qua Trong q trình làm việc, khơng tránh khỏi việc có sai sót, mong nhận xét, đóng góp người để chúng tơi cải thiện cơng việc Nhóm thực tiểu luận MỤC LỤC Công nghệ nhận diện giọng nói 01 | 02 | Tổng quan cơng nghệ nhận diện giọng nói 1877 1952 1984 201x Mơ hình triển khai 03 | Nhận diện giọng nói Nhận diện giọng nói Thư viện luyện tập Tương lai Tương lai Tương lai Tương lai Tài liệu tham khảo Tài liệu tham khảo Tài liệu tham khảo Cơng nghệ nhận diện giọng nói DANH MỤC HÌNH ẢNH Hình 2.1 Hình 2.2 Hình 2.3 Hình 2.4 Hình 3.1 Hình 3.2 Hình 3.3 Hình 3.4 Các nút mạng Recurrent Neural Network [8] Cấu trúc Recurrent Neural Network [9] Sơ đồ khối miêu tả đơn giản thuật toán [7] Biểu đồ so sánh độ xác độ sâu lớp ẩn [9] Ví dụ đơn vị LSTM [16] Một ví dụ đơn vị GRU [17] Khảo sát độ xác trợ lý ảo năm 2019 [20] Một ví dụ SNN [21] 12 13 15 17 20 20 22 23 DANH MỤC BẢNG BIẺU Bảng 2.1 Độ xác cụ thể cụm từ thử nghiệm [9] 16 Bảng 2.2 Độ xác thời gian phản hồi [9] 17 Bảng 2.3 So sánh độ xác mơ hình nhận diện giọng nói [13] 18 TĨM TẮT Cơng nghệ nhận diện giọng nói có từ hàng thập kỉ trước, trải qua nhiều thăng trầm, người tạo nhiều ứng dụng từ phía trước tiềm tiếp tục cần khai phá Hiện tại, nhận diện giọng nói có bước phát triển vượt bậc nhờ đời trí tuệ nhân tạo (AI) Neural Network, một phân loại AI mô tả hệ thống thần kinh người coi công nghệ phù hợp Trong số mơ hình Neural Network khác phát triển, Recurrent Neural Network (RNN) xem đại hiệu hẳn, đặc điểm đem lại ưu điểm để áp dụng vào nhận diện giọng nói chứng minh tiểu luận thông qua số liệu nghiên cứu Cuối cùng, tiểu luận trình bày hướng giải hạn chế RNN nghiên cứu triển khai, với hướng hồn thiện để đưa gần cơng nghệ nhận diện giọng nói vào thực tế sống MỤC ĐÍCH - - Có nhìn tổng quan cơng nghệ nhận diện giọng nói, ứng dụng nhu cầu phát triển cơng nghệ nhận diện giọng nói Biết thêm lịch sử q trình phát triển nhận diện giọng nói Tìm hiểu sở lý thuyết Neural Network Tìm hiểu cách sử dụng Recurrent Neural Network cho công nghệ nhận diện giọng nói, trả lời câu hỏi lại cơng nghệ tiến tiến nhận diện giọng nói, ưu nhược điểm hướng giải Tìm hiểu định hướng phát triển tương lai Cơng nghệ nhận diện giọng nói Cải thiện khả làm việc nhóm, kĩ soạn thảo văn khoa học khả thuyết trình Phần 1: TỔNG QUAN VỀ CƠNG NGHỆ NHẬN DIỆN GIỌNG NĨI 1.1 Cơng nghệ nhận diện giọng nói gì? Nhận dạng giọng nói đề cập đến khả nhận giải thích lệnh giọng nói thiết bị cụ thể Nói cách đơn giản, cơng nghệ nhận dạng giọng nói tương tác phản hồi lệnh người [1] 1.2 Lịch sử phát triển cơng nghệ nhận diện giọng nói Trước đây, việc điều khiển cỗ máy cách nói chuyện với chúng câu chuyện khoa học viễn tưởng Nhưng viễn tưởng dần trở thành thực với phát triển vượt bậc công nghệ, đặc biệt phát triển Trí tuệ nhân tạo(AI) tảng khác để tạo giao diện người dùng cho phép sử dụng giọng nói để điều khiển thiết bị công nghệ Lịch sử nhận diện giọng nói bắt đầu vào năm 1877 Thomas Edison phát minh máy ghi âm, thiết bị ghi tái tạo âm Mãi năm 1952 cơng nghệ nhận diện giọng nói có phát triển rõ ràng kỹ sư Bell Labs phát triển phận nhận dạng chữ số tự động có tên Audrey Audrey cao feet, có nhiều đặc điểm tương tự với tụ điện bao gồm khuếch đại lọc Audrey nhận 10 chữ số nói giọng nói Mặc dù thiết bị nhận đầu vào giọng nói với độ xác lên đến 97-99% kích thước lớn, chi phí cao thiết bị điện tử phức tạp nên khơng thể trở thành sản phẩm thương mại hóa Tuy nhiên, thiết bị Audrey đánh dấu khởi đầu công nghệ nhận dạng giọng nói tiếp tục cho nghiên cứu sau Hệ thống Audrey cịn xem thiết bị nhận dạng giọng nói Năm 1962, máy Shoebox IBM phát triển, nhận 16 từ tiếng anh, 10 chữ số lệnh số học Từ năm 1971-1976, Bộ Quốc phòng Mỹ tài trợ cho chương trình DARPA SUR (Nghiên cứu hiểu lời nói), dẫn đến phát triển Harpy tạo Carnegie Mellon hiểu 1011 từ [1] Vào năm 1984, Công nghệ nhận dạng giọng nói hệ SpeechWorks Nuance giới thiệu thông qua hệ thống tổng đài trả lời tự động (IVR) Những IVR nhận giọng nói người qua gọi thực nhiệm vụ giao cho chúng Bất có điện thoại nhận tất thơng tin tìm thời gian chiếu phim địa phương, nghe thông tin giao thông, báo giá cổ phiếu, đặt chuyến bay máy bay, chuyển tiền tài khoản, đặt mua thuốc theo toa,… Mọi thứ xoay quanh điện thoại cầm tay giọng nói người Các hệ thống IVR trở thành xu hướng chủ đạo năm 2000 phần dịch vụ chăm sóc hỗ trợ khách hàng ngày nay.[1] Năm 1992, Apple sản xuất hệ thống nhận dạng giọng nói liên tục theo thời gian thực hiện, nhận lên đến 20000 từ Năm 2006, Apple giới thiệu khái niệm Siri, cho phép người dùng tương tác với sản phẩm hãng giọng nói Sau đó, Google giới thiệu nghiên cứu hỗ trợ giọng nói vào năm 2007 Đến năm 2008, Google gây sốt với việc cung cấp ứng dụng Google Voice Search dành cho Iphone Năm 2010, Google giới thiệu hệ thống nhận dạng giọng nói cá nhân hóa, thiết bị Android ghi lại truy vấn giọng nói người dùng khác để phát triển mô hình giọng nói nâng cao Nó bao gồm 230 tỷ từ tiếng anh [1] Năm 2011, cuối Siri Apple triển khai Iphone4S, dựa điện toán đám mây Năm 2014, Amazon giới thiệu Amazon Echo, loa thơng minh tích hợp trợ lý ảo Chúng kết nối với ứng dụng di động thông qua Alexa Tương tự, đối thủ cạnh tranh với Amazon ông lớn công nghệ Google Apple giới thiệu Google Home, Apple Homepod để cải thiện trải nghiệm người dùng họ văn phịng, nhà chí trung tâm mua sắm Năm 2015, Microsoft công bố xuất Cortana cho máy tính để bàn thiết bị di động Windows 10 phần việc hợp Windows Phone hệ điều hành máy tính hãng công nghệ này, đánh dấu xuất ông lớn tham gia vào đua cơng nghệ nhận diện giọng nói Vào tháng 5-2016, Trợ lý Google (Google Assistant) trợ lý cá nhân ảo phát triển Google cho thiết bị di động nhà thông minh, mắt lần đầu hội nghị nhà phát triển hãng Không Google Now, Trợ lý Google tham gia trò chuyện hai chiều Trợ lý Google đưa vào ứng dụng nhắn tin Google Allo, loa thông minh Google Home Năm 2017, Google Assistant tiếp tục mở rộng hỗ trợ cho lượng lớn thiết bị, bao gồm xe thiết bị nhà thông minh Các chức Assistant bổ sung nhà phát triển bên thứ [1] [2] 1.3 Mơ hình vận hành cơng nghệ nhận diện giọng nói: Tín hiệu-> Tín hiệu mã hóa(dạng số)->Xử lý nhận dạng >Đầu Có hai phương thức phổ biến sau: -Điện toán đám mây: Cách thức hoạt động cách nhận dạng, xử lý ngôn ngữ máy chủ công ty cung cấp dịch vụ (google, facebook, zalo,…) thông qua kết nối internet Phương thức hoạt động hiệu quả, xác cao nhìn chung tương đối chậm lúc người dùng phải có internet -Tích hợp app: Q trình hoạt động nội ứng dụng Nhờ mà tốc độ xử lý nhanh chóng Người sử dụng khơng cần phải dùng đến internet sử dụng công nghệ nhận dạng giả lập giọng nói app Tuy nhiên, người dùng cần phải ln cập nhật ứng dụng [1] 1.4 Cơng nghệ nhận diện giọng nói áp dụng vào ứng dụng nào? Tốc độ điều người ta nhắc đến đề cập đến câu hỏi Thay phải ngồi nhập tay email, soạn văn bản, đặt lịch hẹn, điện thoại máy tính gây tốn thời gian, chí sai sót Giờ sử dụng giọng nói phương thức để nhập liệu Nó nhanh chóng, đơn giản, thuận tiện vô dễ dàng [2] Không dừng lại việc nhập liệu, nhận dạng giọng nói cịn ứng dụng hệ thống điều khiển hệ sinh thái SMARTHOME Nhận diện giọng nói cịn sử dụng nhiều lĩnh vực trí tuệ nhân tạo(Artificial Intelligence) Siri, Google Assistant hay Amazon Alexa ví dụ điển hình [1] Ngồi cơng nghệ nhận dạng giọng nói đánh giá sản phẩm tuyệt vời dành cho người khiếm thị Những người khiếm thị tận hưởng tiến cơng nghệ tương tự mà người bình thường làm, khơng cịn khoảng cách xuất khiếm khuyết giác quan [1] 1.5 Sự cần thiết việc phát triển công nghệ nhận diện giọng nói Cơng nghệ ln ln phát triển, kéo theo nhu cầu sử dụng người dùng tăng theo Các cơng cụ nhận diện giọng nói đạt thành tựu định, cịn nhiều mặt hạn chế Nó đặt yêu cầu cho nhà phát triển công nghệ nhận diện giọng nói việc cải thiện hiệu suất độ chinh xác cho cơng nghệ Các hệ thống nhà thông minh, trợ lý ảo hay robot sử dụng trí tuệ nhân tạo ngày gia tăng mặt số lượng, chất lượng Do đó, cơng nghệ nhận diện giọng nói cần phát triển theo, phục vụ nhu cầu cải tiến cho hệ thống thơng minh Phần 2: CƠNG NGHỆ NHẬN DIỆN GIỌNG NĨI SỬ DỤNG NEURAL NETWORK Với xuất trí tuệ nhân tạo (AI) nhiều công nghệ lĩnh vực khác tìm thấy hướng mới, tạo bước phát triển vượt bậc Khơng nằm ngồi xu đó, cơng nghệ nhận diện giọng nói có phát triển lớn nhờ nhánh AI Neural Network Neural Network giới thiệu công cụ đắc lực giải vấn đề bật nhận diện giọng nói việc phân biệt định dạng đặt theo loại [3] 2.1 Vài nét Neural Network Neural Network hệ thống hoạt động dựa việc mô hệ thần kinh người Neural Network bao gồm mạng lưới nút mà chúng đặt địa đặc biệt dùng chung, nút lại coi đơn vị địa Chúng hoạt động song song với nhờ tương tác lẫn liên quan chúng với nghiên cứu khoa học, bao gồm: - Mơ hình Tốn học biểu diễn cấu trúc hệ thống xử lý thông tin Sinh học với phần tử tương đối đơn giản Các lớp thực thể thuật toán đơn giản xây dựng dạng biểu đồ [4] Ý tưởng Neural Network đưa nhà thần kinh học Warren McCulloch nhà toán học Walter Pitts năm 1943 Để miêu tả cách hoạt động chúng, họ tạo mơ hình đơn giản Neural Network mạch điện tử [5] Kể từ đó, nhiều nhà khoa học bắt tay vào việc nghiên cứu công nghệ này, tạo nhiều thành tựu đáng kể Cho tới ngày nay, Neural Network trở thành công nghệ đại, áp dụng nhiều vào ứng dụng trí tuệ nhân tạo Tính bật Neural Network phân loại mã hóa, qua gia tăng khả chống ồn, linh hoạt khả nhận diện liệu bị bóp méo, gia tăng khả làm việc song song hệ thống liệu, có khả dự đoán phân loại tiếng ồn qua hệ thống phép tốn tuyến tính [3] Vì vậy, Neural Network xem phương pháp phù hợp cho nhận diện giọng nói 2.2 Nhận diện giọng nói sử dụng Neural Network Trong mơ hình nhận diện giọng nói, có nhiều q trình khác phải trải qua trước trả kết xác Tuy nhiên vai trị q trình xử lý phân loại tín hiệu tới việc nhận kết xác quan trọng Do đó, tiểu luận trình bày giải pháp cho vấn đề xử lý phân loại tín hiệu sử dụng Neural Network Giải pháp thực việc đánh giá tạo loạt dự đốn tín hiệu Nếu dự đốn xa khỏi giá trị trung bình với giá trị định đó, khảo “Sonix,” Sonix, Inc , [Trực tuyến] Available: https://sonix.ai/history-of-speech-recognition Fang Chen, Kristiina Jokinen, Speech Tenology - Theory and Applications, Springer, 2020 F Millstein, “Natural language processing with python: natural language processing using NLTK” Kalid Al Smadi, Huthaifa Al Issa, Issam Trrad, ProfTakialddin Al Smadi, “Artificial Intelligence for Speech Recognition Based on Neural Networks,” Signal and Information Processing, tập 06, số 02, pp 66-72, 2015 Analysis Tools for Neural Networks,” Journal of Statistical Software, pp 1-20, 2018 Tài liệu tham khảo Glackin, C., Wall, J., Chollet, G., Dugan, N., &Cannings, N., “TIMIT and NTIMIT Phone Recognition Using Convolutional Neural Networks.,” International Conference on Pattern Recognition Applications and Methods, 2018 Sewak, M., Karim, M R., & Pujari, P., Practical convolutional neural networks: implement advanced deep learning models using Python, Packt Publishing, 2018 Ahmad, M A., Baker, J H., Tvoroshenko, I., Lyashenko, V., “Computational complexity of the accessory function setting mechanism in fuzzy intellectual systems,” International Journal of Advanced Trends in Computer Science and Engineering, tập 8, số 5, pp 2370-2377, Praveen Edward James, Mun Hou Kit, Chockalingam Aravind Vaithilingam, Alan Tan Wee Chiat, “Recurrent neural network-based speech recognition using MATLAB,” Int J Intelligent Enterprise, tập 7, số 1/2/3, 2020 Hinton, G., Deng, L., Yu, D., Dahl, G.E., Mohamed, A-R., Jaitly, N and Kingsbury, B , “Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups,” IEEE International Conference in Acoustics, Speech and Signal Processing (ICASSP), 2019 Roger Gross, “Lecture 15: Exploding and Vanishing Gradients” Tài liệu tham khảo Roberto Cahuantzi, Xinye Chen, Stefan Güttel , “A comparison of LSTM and GRU networks for learning symbolic sequences,” 2021 Clearbridge mobile, “7 Key Predictions for the Future Of Voice Assistants and AI,” 2021 [Trực tuyến] Available: https://clearbridgemobile.com/7-key-predictions-for-thefuture-of-voice-assistants-and-ai/ Awn the Tiểu luận Công nghệ nhận diện giọng nói Sử dụng Neural Network Nhóm • Nguyễn Quy Thành An • Nguyễn Duy Hùng • Phạm Tường Minh • Trần Đăng Minh Tâm • Nguyễn Công Trình • Vũ Thành Vân Tiểu luận Công nghệ nhận diện giọng nói Sử dụng Neural Network Nhóm Cảm ơn, vì lắng nghe! ... Tổng quan công nghệ nhận diện giọng nói 03 Nhận diện giọng nói sử dụng Neural Network 01 | G Giới thiệu tiểu luận Mục đích - Đưa nhìn tổng quan cơng nghệ nhận diện giọng nói, ứng dụng nhu cầu... NGHỆ NHẬN DIỆN GIỌNG NĨI 1.1 Cơng nghệ nhận diện giọng nói gì? Nhận dạng giọng nói đề cập đến khả nhận giải thích lệnh giọng nói thiết bị cụ thể Nói cách đơn giản, cơng nghệ nhận dạng giọng nói. .. triển nhận diện giọng nói Tìm hiểu sở lý thuyết Neural Network Tìm hiểu cách sử dụng Recurrent Neural Network cho công nghệ nhận diện giọng nói, trả lời câu hỏi lại cơng nghệ tiến tiến nhận diện giọng

Ngày đăng: 16/03/2022, 18:54

Xem thêm: