(Luận văn thạc sĩ hcmute) nghiên cứu và ứng dụng mạng nơ ron hồi quy trong xử lý ngôn ngữ tự nhiên

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ ĐỒN HUỲNH CƠNG SƠN NGHIÊN CỨU VÀ ỨNG DỤNG MẠNG NƠ-RON HỒI QUY TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN NGÀNH: KỸ THUẬT ĐIỀU KHIỂN VÀ TỰ ĐỘNG HĨA - 8520216 SKC006707 Tp Hồ Chí Minh, tháng 05/2020 Luan van BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ ĐỒN HUỲNH CƠNG SƠN NGHIÊN CỨU VÀ ỨNG DỤNG MẠNG NƠ-RON HỒI QUY TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN NGÀNH: KỸ THUẬT ĐIỀU KHIỂN VÀ TỰ ĐỘNG HĨA Tp Hồ Chí Minh, tháng 5/2020 Luan van BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ ĐỒN HUỲNH CƠNG SƠN NGHIÊN CỨU VÀ ỨNG DỤNG MẠNG NƠ-RON HỒI QUY TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN NGÀNH: KỸ THUẬT ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓA Hướng dẫn khoa học: TS TRƯƠNG NGỌC SƠN Tp Hồ Chí Minh, tháng 5/2020 Luan van BỘ GIÁO DỤC VÀ ĐÀO TẠO CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT Độc lập – Tự – Hạnh phúc THÀNH PHỐ HỒ CHÍ MINH Số: 1990 Tp Hồ Chí Minh, ngày 19 tháng năm 2020 QUYẾT ĐỊNH Về việc giao đề tài luận văn tốt nghiệp người hướng dẫn năm 2020 HIỆU TRƯỞNG TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH Căn Quyết định số 426/TTg ngày 27 tháng 10 năm 1976 Thủ tướng Chính phủ số vấn đề cấp bách mạng lưới trường đại học Quyết định số 118/2000/QĐ-TTg ngày 10 tháng 10 năm 2000 Thủ tưởng Chính phủ việc tổ chức lại Đại học Quốc gia Thành Phố Hồ Chí Minh, tách Trường Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh trực thuộc Bộ Giáo dục Đào tạo; Căn Quyết định số 70/2014/QĐ-TTg ngày 10 tháng 12 năm 2014 Thủ tướng Chính phủ việc ban hành Điều lệ trường Đại học; Căn Quyết định số 937/QĐ-TTg ngày 30 tháng năm 2017 việc phê duyệt đề án thí điểm đổi chế hoạt động Trường Đại học Sư phạm Kỹ thuật Tp Hồ Chí Minh; Căn Thông tư số 15/2014/TT-BGDĐT ngày 15/5/2014 Bộ Giáo dục Đào tạo việc Ban hành Qui chế đào tạo trình độ thạc sĩ; Căn vào Biên bảo vệ Chuyên đề ngành Kỹ thuật điều khiển & tự động hoá vào ngày 23/08/2019; Xét nhu cầu công tác khả cán bộ; Xét đề nghị Trưởng phòng Đào tạo, QUYẾT ĐỊNH: Điều Giao đề tài Luận văn tốt nghiệp thạc sĩ người hướng dẫn Cao học năm 2020 cho: Học viên : Đồn Huỳnh Cơng Sơn MSHV: 1881108 Ngành : Kỹ thuật điều khiển & tự động hoá Tên đề tài : NGHIÊN CỨU VÀ ỨNG DỤNG MẠNG NƠ-RON HỒI QUY TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN Người hướng dẫn : TS Trương Ngọc Sơn Thời gian thực : Từ ngày 28/08/2019 đến ngày 28/02/2020 Điều Giao cho Phòng Đào tạo quản lý, thực theo Qui chế đào tạo trình độ thạc sĩ Bộ Giáo dục & Đào tạo ban hành Điều Trưởng đơn vị, phòng Đào tạo, Khoa quản ngành cao học Ơng (Bà) có tên Điều chịu trách nhiệm thi hành định Quyết định có hiệu lực kể từ ngày ký./ i Luan van HIỆU TRƯỞNG Nơi nhận : - BGH (để biết); - Như điều 3; - Lưu: VT, SĐH (3b) PGS.TS Đỗ Văn Dũng ii Luan van iii Luan van iv Luan van v Luan van vi Luan van vii Luan van CHƯƠNG 6: KẾT LUẬN Đề tài đã nghiên cứu phát triển thành cơng mơ hình robot trợ lý giảng dạy, robot hiểu xử lý câu hỏi mà người dùng đưa ra, nhờ sử dụng mạng nơron hồi quy mà cụ thể sử dụng thuật toán Long Short-Term Memory Giải thuật sử dụng phương pháp xử lý chuỗi sang chuỗi, giải vấn đề khơng có tập dữ liệu thuật tốn sinh câu trả lời tự động Thuật tốn q trình xử lý cài đặt bo nhúng Raspberry Pi, kết thí nghiệm cho thấy độ xác mơ hình đạt 87.2% Hạn chế nghiên cứu robot tự động sinh câu trả lời nên vài trường hợp dẫn đến lỗi sai cú pháp trình xử lý Ứng dụng xử lý cho ngôn ngữ tiếng việt, trình nhận dạng giọng nói chuyển sang văn khâu xử lý bị sai lệch thơng tin ảnh hưởng ngôn ngữ vùng miền, dẫn đến kết phán đoán sai theo Hướng phát triễn tới luận văn tạo môi trường thu thập dữ liệu bảo mật, cập nhật đa dạng nguồn dữ liệu Nâng cấp thêm tính cho robot như: cấu di chuyển, xử lý ảnh nhận dạng khuôn mặt người 90 Luan van TÀI LIỆU THAM KHẢO [1] B Setiaji and F W Wibowo, “Chatbot Using a Knowledge in Database: Human-toMachine Conversation Modeling”, in 2016 7th International Conference on Intelligent Systems, Modelling and Simulation (ISMS), 2016, pp 72–77 [2] Q Zhan, L Zhang, H Deng and X Xie, “An Improved LSTM For Language Identification”, 2018 14th IEEE International Conference on Signal Processing (ICSP), Beijing, China, 2018, pp 609-612 [3] S Zhang, S Liu and M Liu, “Natural language inference using LSTM model with sentence fusion”, 2017 36th Chinese Control Conference (CCC), Dalian, 2017, pp 1108111085 [4] G Boza-Quispe, J Montalvan-Figueroa, J Rosales-Huamaní and F Puente-Mansilla, “A friendly speech user interface based on Google cloud platform to access a tourism semantic website”, 2017 CHILEAN Conference on Electrical, Electronics Engineering, Information and Communication Technologies (CHILECON), Pucon, 2017, pp 1-4 [5] Development of collective assistant teaching for r-learning in a kindergarten [6] S J du Preez, M Lall and S Sinha, “An intelligent web-based voice chat bot”, IEEE EUROCON 2009, St.-Petersburg, 2009, pp 386-391 [7] A Mondal, M Dey, D Das, S Nagpal, and K Garda, “Chatbot: An automated conversation system for the educational domain”, in 2018 International Joint Symposium on Artificial Intelligence and Natural Language Processing (iSAI-NLP), 2018, pp 1–5 [8] M Bates, “Health Care Chatbots Are Here to Help”, IEEE Pulse, vol 10, no 3, pp 12– 14, May 2019 [9] D Madhu, C J N Jain, E Sebastain, S Shaji, and A Ajayakumar, “A novel approach for medical assistance using trained chatbot”, in 2017 International Conference on Inventive Communication and Computational Technologies (ICICCT), 2017, pp 243–246 [10] G M D’silva, S Thakare, S More, and J Kuriakose, “Real world smart chatbot for customer care using a software as a service (SaaS) architecture”, in 2017 International Conference on I-SMAC (IoT in Social, Mobile, Analytics and Cloud) (I-SMAC), 2017, pp 658–664 [11] B R Ranoliya, N Raghuwanshi and S Singh, “Chatbot for university related FAQs”, 2017 International Conference on Advances in Computing, Communications and Informatics (ICACCI), Udupi, 2017, pp 1525-1530 [12] J Liu and B Zhu, “An intelligent personal assistant robot: BoBi secretary”, 2017 2nd International Conference on Advanced Robotics and Mechatronics (ICARM), Hefei, 2017, pp 402-407 [13] J Han et al., “A trial English class with a teaching assistant robot in elementary school”, 2010 5th ACM/IEEE International Conference on Human-Robot Interaction (HRI), Osaka, 2010, pp 335-335 [14] S Konstantinidis, "Computing the Levenshtein distance of a regular language," IEEE Information Theory Workshop, 2005., Rotorua, 2005, pp pp.-, doi: 10.1109/ITW.2005.1531868 91 Luan van [15] T Liu, T Wu, M Wang, M Fu, J Kang and H Zhang, "Recurrent Neural Networks based on LSTM for Predicting Geomagnetic Field," 2018 IEEE International Conference on Aerospace Electronics and Remote Sensing Technology (ICARES), Bali, 2018, pp 1-5, doi: 10.1109/ICARES.2018.8547087 92 Luan van THIẾT KẾ ROBOT TRỢ LÝ GIẢNG DẠY GIAO TIẾP BẰNG GIỌNG NÓI DESIGN OF VOICE COMMUNICATION-BASED TEACHING ASSISTANT ROBOT Đồn Huỳnh Cơng Sơn, Trương Ngọc Sơn Trường Đại học Sư phạm Kỹ thuật TP.HCM TÓM TẮT Nghiên cứu trình bày thiết kế kiểm nghiệm thử Robot trợ lý giảng dạy hoạt động trợ lý ảo có khả giao tiếp giọng nói, không cần kết nối mạng trợ lý ảo sử dụng mã nguồn mở Pocketsphinx để nhận dạng giọng nói Nghiên cứu sử dụng khối hiệu chỉnh đặt sau Pocketsphinx để nâng cao độ xác cho khối nhận dạng giọng nói Phần lõi xử lý ngôn ngữ tự nhiên sử dụng mạng LSTM cho phép đưa câu trả lời phù hợp mà mạng đã huấn luyện Chương trình cài đặt phần cứng nhúng Raspberry Pi Zero có mức tiêu tốn lượng thấp Kết kiểm thử đánh giá cho thấy, không sử dụng khối hiệu chỉnh robot có khả nhận dạng trả lời câu hỏi với tỷ lệ xác 62.5% hiệu suất tăng lên đáng kể 87.2% sử dụng khối hiệu chỉnh Từ khóa: Robot trợ lý giảng dạy; Xử lý ngôn ngữ tự nhiên; Mạng Long short-term memory; Nhận dạng giọng nói ABSTRACT This study presents a design and testing of a teaching assistant robot that works as a virtual assistant being capable voice communication with human Robot can work without connecting to the network, the open source Pocketsphinx is employed for speech recognition The Pocketsphinx module is followed by a correction module to improve the accuracy The Long Short-Term Memory is utilized for natural language processing unit that produces the answers The model is deployed on the low-cost embedded board, Raspberry Pi Zero The evaluation was performed with and without using the proposed correction module The accuracy is 62.5% when using Pocketsphinx without the proposed correction module With the proposed correction module, the robot improved the identifying and answering questions capacities to 87.2% of accuracy Luan van Keywords: Assistant robots, Natural language processing, Long Short-Term Memory Network, Machine learning, Speech processing GIỚI THIỆU Trong những năm gần đây, ngành khoa học trí tuệ nhân tạo phát triển mạnh mẽ tạo nhiều ứng dụng hữu ích nhiều mặt sống Một ứng dụng khoa học trí tuệ nhân tạo trợ lý ảo Các trợ lý ảo hay biết đến với tên gọi Chatbot phần mềm dựa trí tuệ nhân tạo huấn luyện với lượng kiến thức lĩnh vực có khả đưa câu trả lời nhận câu hỏi [1] Các Chatbot ứng dụng rộng rãi lĩnh vực kinh doanh, chăm sóc sức khỏe giáo dục [2]-[6] Các Chatbot dừng lại việc nhận trả lời câu hỏi thông qua chế độ giao tiếp văn (text-based interface) Các Chatbot kết nối thêm mơ đun nhận dạng giọng nói tạo Robot có khả giao tiếp trả lời câu hỏi từ người dùng [7]-[10] Các Robot thiết kế có khả giao tiếp sử dụng hỗ trợ cho việc giảng dạy [9], [10] Phần cốt lõi robot trợ lý kỹ thuật nhận dạng giọng nói xử lý ngơn ngữ tự nhiên, nhận dạng giọng nói đóng vai trị cốt yếu đến độ xác robot Phần lớn robot trợ lý thiết bị điều khiển thiết bị giọng nói sử dụng cơng cụ nhận dạng giọng nói Google (Google Cloud Speech API) cho độ xác cao tốc độ đáp ứng nhanh [11] Tuy nhiên, sử dụng dịch vụ từ Google đòi hỏi hệ thống phải kết nối internet liên tục đường truyền phải đảm bảo mặt tốc độ Để thiết kế Robot trợ lý có khả giao tiếp giọng nói hoạt động độc lập không cần phải kết nối mạng, việc lựa chọn cơng cụ nhận dạng giọng nói cần thiết Các mơ đun nhận dạng giọng nói phát triển dựa mạng học sâu Tuy nhiên, việc huấn luyện mạng học sâu đòi hỏi phải có tập dữ liệu huấn luyện lớn mạng học sâu không hiệu triển khai hệ thống nhúng Raspberry cho robot di động Pocketdphinx mơ đun nhận dạng giọng nói mã nguồn mở phát triển phù hợp cho hệ thống có tài nguyên giới hạn [12] Nhận dạng giọng nói sử dụng mơ đun pocketsphinx có khả hoạt động độc lập không cần kết nối mạng internet, nhiên, độ xác thấp so Luan van với cơng cụ Google Để tăng độ xác, thiết kế này, tác giả kết hợp mô đun Pocketsphinx để nhận dạng giọng nói giải thuật tìm kiếm tương quan dựa khoảng cách Levenshtein để hiệu chỉnh lỗi Phương pháp đề xuất cho phép tăng độ xác mơ đun nhận dạng giọng nói Mô đun xử lý ngôn ngữ tự nhiên để lựa chọn câu trả lời sử dụng mạng nơ-ron hồi quy cải tiến (mạng LSTM) Robot thiết kế để hỗ trợ giảng dạy huấn luyện với kiến thức mơn học Robot có khả trả lời câu hỏi từ người học nội dung môn học mà Robot huấn luyện THIẾT KẾ ROBOT TRỢ LÝ GIẢNG DẠY Robot trợ lý giảng dạy phát triển mơ hình trợ lý ảo (chatbot) Tuy nhiên, khác với chatbot có khả giao tiếp với người dùng qua chế độ văn (text), Robot trợ lý giảng dạy giao tiếp qua ngôn ngữ Robot huấn luyện với nội dung mơn học kỹ thuật có khả trả lời câu hỏi liên quan đến môn học Để thiết kế robot trợ lý giảng dạy, tác giả chọn mơn học ngơn ngữ lập trình, mơn học sở dạy nhiều trường kỹ thuật Sơ đồ khối hệ thống điều khiển robot trình bày hình Giọng nói Chuyển đổi giọng nói sang văn Pocketsphinx Khối hiệu chỉnh Mạng LSTM Chuyển đổi văn Giọng nói sang giọng nói Tập sở dữ liệu câu hỏi Hình Sơ đồ khối hệ thống điều khiển Đặc điểm quan trọng thiết kế Robot hồn tồn hoạt động độc lập mà không cần kết nối internet (offline) Mơ đun nhận dạng giọng nói sử dụng thư viện mã nguồn mở, Pocketsphinx, cho phép chuyển đổi từ giọng nói sang văn (speech to text) có khả hoạt động offline Để tăng độ xác, tác giả đề xuất thêm khối hiệu chỉnh độ xác kết nối sau ngõ Pocketsphinx, thể hình Hạn chế mơ đun Pocketsphinx cho độ xác so với cơng cụ hoạt động trực tuyến (online) Google Speech Recogntion API [13] Khối hiệu chỉnh lập trình ngơn ngữ Python, sử dụng thuật toán khoảng cách Levenshtein Thuật tốn khoảng Luan van cách Levenshtein cho phép tính độ giống giữa chuỗi [14] Kết nhận dạng từ Pocketsphinx câu hỏi dạng chuỗi, câu hỏi đưa sang khối hiệu chỉnh Tại khối hiệu chỉnh, độ giống câu hỏi câu hỏi mẫu tập huấn luyện tính dựa thuật tốn khoảng cách Levenshtein để tìm xem câu hỏi tập câu hỏi mẫu có độ giống với câu hỏi nhận lớn Khi xác định độ giống lớn nhất, câu hỏi có độ giống lớn với câu hỏi nhận từ Pocketsphinx lựa chọn đưa sang khối Khối hiệu chỉnh giúp nâng cao độ xác khối nhận dạng tiếng nói đáng kể Bảng trình bày ví dụ hoạt động khối hiệu chỉnh khối pocketsphinx nhận câu hỏi chuyển sang văn Bảng 1: Hoạt động khối hiệu chỉnh với câu nhận từ Pocketsphinx Pocketsphinx What the function be since Câu hỏi mẫu What is a function in C Độ giống với câu hỏi mẫu 0.593 Câu hỏi mẫu What is a variable in C Độ giống với câu hỏi mẫu 0.407 Lựa chọn ngõ What is a function in C Hoạt động khối hiệu chỉnh ví dụ minh họa bảng Khi khối Pocketsphinx nhận dạng giọng nói, kết nhận dạng chuyển sang văn (text) chuyển sang khối hiệu chỉnh Tại khối hiệu chỉnh tính độ giống giữa câu hỏi câu hỏi mẫu lưu sở dữ liệu sử dụng thuật toán Levenshtein chọn câu hỏi giống từ sở dữ liệu Khối xử lý ngôn ngữ tự nhiên sử dụng mạng Long Short-Term Memory, dạng cải tiến mạng hồi quy (Recurrent Neural Network) LSTM cho phép nhận dạng đối tượng theo thứ tự thời gian, phù hợp với ứng dụng mà ngõ vào có ràng buộc mặt thứ tự chuỗi LSTM ứng dụng nhiều kỹ thuật xử lý ngôn ngữ tự nhiên [15], [16] Nhược điểm mạng hồi quy giá trị lỗi có xu hướng nhỏ dần lan truyền qua nhiều lớp mạng làm cho q trình cập nhật trọng số khơng hiệu trình huấn luyện Mạng LSTM cải tiến để khắc phục nhược điểm mạng hồi quy [15] Một lớp mạng LSTM thể hình Luan van Hình lớp mạng LSTM Mạng LSTM có khả giữ lại lọc bỏ thông tin không cần thiết thông qua cổng Gate, kết hợp giữa phép nhân tầng Sigmoid để sàng lọc thông tin Hàm sigmoid cho kết nằm khoảng [0,1], đầu loại bỏ thơng tin đó, cho tất thông tin qua Đầu tiên thông tin qua tầng hay gọi tầng forget gate layer, thông tin giữ lại loại bỏ tùy thuộc vào kết tầng sigmoid 𝑓𝑡 = 𝜎(𝑊𝑓 [ℎ𝑡−1 , 𝑥𝑡 ] ⁡ + ⁡ 𝑏𝑓 ) (1) Tiếp bước kiểm tra thông tin mới, xem thông tin lưu vào trạng thái tế bào Ct-1 Ở bước ta sử dụng tầng sigmoid gọi input layer gate kết hợp với tầng hàm để cập nhật trạng thái 𝑖𝑡 = 𝜎(𝑊𝑖 [ℎ𝑡−1 , 𝑥𝑡 ] ⁡ + ⁡ 𝑏𝑖 ) (2) 𝐶̃𝑡 = 𝑡𝑎𝑛ℎ(𝑊𝑐 [ℎ𝑡−1 , 𝑥𝑡 ] ⁡ + ⁡ 𝑏𝑐 ) (3) Bước cập nhật tế bào Ct, dựa vào sơ đồ hình ta suy được: 𝐶𝑡 = 𝑓𝑡 ∗ 𝐶𝑡−1 + ⁡ 𝑖𝑡 ∗ 𝐶̃𝑡 (4) Bước cuối cùng bước định xem đầu gì, kết đầu vào cho hidden layer nên sàn lọc thông tin lần cuối cùng dựa vào hàm sigmoid sau nhân với hàm để đưa giá trị đầu mong muốn 𝑜𝑡 = 𝜎(𝑊0 [ℎ𝑡−1 , 𝑥𝑡 ] ⁡ + ⁡ 𝑏0 ) (5) ℎ𝑡 = 𝑜𝑡 ∗ tanh⁡(𝐶𝑡 ) (6) Luan van Các tập dữ liệu thu thập bao gồm tập câu hỏi mẫu phục vụ cho trình hiệu chỉnh tập dữ liệu cho trình huấn luyện mạng LSTM Cấu trúc dữ liệu huấn luyện mạng bao gồm câu hỏi làm đầu vào cho trình mã hóa (Encoder) mạng LSTM câu trả lời cho trình giải mã (Decoder) [8] Mạng LSTM thiết kế sử dụng thư viện Keras Kiến trúc mạng LSTM tóm tắt hình Hình Kiến trúc mơ hình LSTM sử dụng thư viện Keras Cấu trúc mạng hình gồm: input layer, embedding LSTM với số nơ-ron lớp ẩn 200 Input layer lớp đầu vào encoder_input decoder_input với số mẫu num_sample=840 Embedding layer lớp chuyển đổi khơng gian vector encoder_embedding decoder_embedding với kích thước 840x200=168000 LSTM layer nhận đầu vào từ embedding layer, ô nhớ LSTM yêu cầu đầu vào mảng chiều, LSTM xử lý chuỗi đầu vào bước thời gian ô nhớ xuất giá trị cho toàn chuỗi dạng mảng chiều Mơ hình LSTM huấn luyện máy chủ sử dụng tăng tốc đồ họa (Graphic Procesisng Unit) GTX1080 để rút ngắn thời gian huấn luyện Mơ hình sau huấn luyện chương trình xử lý cài đặt xuống cho phần cứng nhúng Raspberry Pi Để Robot trả lời câu hỏi từ người dùng giọng nói, tác giả thiết kế khối chuyển đổi từ văn sang giọng nói Dữ liệu giọng nói ghi âm cho từ riêng lẻ lưu dạng tệp âm (.wav) thẻ nhớ Kết đưa từ mơ hình LSTM ánh xạ sang tệp âm Chương trình gọi thực thi tệp âm tương ứng để tạo câu trả lời Chương trình triển khai phần cứng Raspberry Pi Zero lắp đặt vào mơ hình Robot hình Luan van Màn hình LCD Mạch khuếch đại Loa Bộ chuyển đổi USB Âm Hệ thống nhúng Raspberry Pi Zero Mi-crô (a) Khối điều khiển (b ) Sơ đồ khối điều khiển Nguồn cung cấp (5V) (c) Mơ hình Robot Hình (a) Kết nối điều khiển, (b) sơ đồ khối điều khiển,(c)thiết kế phần thân Robot Hình mơ tả kết nối khối điều khiển, sơ đồ khối điều khiển phần thân robot Khối điều khiển sử dụng hệ thống nhúng Raspberry Pi Zero có kích thước nhỏ giá thành thấp, phù hợp với thiết kế robot di động Hệ thống sử dụng Microphone có tích hợp khuếch đại với hệ số tín hiệu nhiễu (SNR) 62 dBA để tăng khoảng cách thu loại bỏ nhiễu Tín hiệu âm khuếch đại đưa đến ngõ loa Hệ thống sử dụng pin với dung lượng 4200 mAh cho phép Robot hoạt động liên tục thời gian Phần thân robot chế tạo nhựa hình 4(c) Phần mặt robot gắn thêm hình cho phép hiển thị số thơng tin, hình ảnh q trình giao tiếp KẾT QUẢ VÀ THẢO LUẬN Sau hoàn thiện, Robot vận hành kiểm tra khả nhận dạng câu hỏi khả trả lời Qua thực nghiệm cho thấy, Robot trả lời câu hỏi sai nhận dạng sai Trong trường hợp nhận dạng giọng nói đúng, Robot trả lời với kịch tập huấn luyện Tác giả tiến hành thực nghiệm cách giao tiếp với robot qua 100 câu hỏi điều kiện phịng thí nghiệm, khơng có tiếng ồn từ môi trường Để đánh giá hiệu khối hiệu chỉnh đề xuất, tác giả đo độ xác trường hợp có khối hiệu chỉnh khơng có khối hiệu chỉnh Khoảng cách từ người nói đến vị trí robot 1m Kết thể bảng Luan van Bảng 1: Kiểm tra độ xác hoạt động Robot Mơ hình Độ xác (%) Khơng sử dụng khối hiệu chỉnh 62.5 Sử dụng khối hiệu chỉnh 87.2 Kết thực nghiệm đo điều kiện phịng thí nghiệm Kết thực nghiệm lần lấy giá trị trung bình Trong lần thực nghiệm sử dụng giọng nói khác giao tiếp với Robot qua 100 câu hỏi liên quan đến môn học Ngôn ngữ lập trình Bảng liệt kê kết trung bình lần thực nghiệm với mơ hình; khơng sử dụng khối hiệu chỉnh sử dụng khối hiệu chỉnh Khi không sử dụng khối hiệu chỉnh, tỷ lệ nhận dạng trả lời câu hỏi 62.5% Trong trường hợp sử dụng khối hiệu chỉnh, độ xác nâng lên 87.2% Sử dụng khối hiệu chỉnh cho phép tăng độ xác robot robot hoạt động ngoại tuyến (offline) Các mô đun cài đặt phần cứng có cấu hình thấp, Raspberry Pi Zero, giúp tiết kiệm lượng hoạt động Robot có khả giao tiếp với người thơng qua giọng nói trả lời số câu hỏi liên quan đến mơn học Ngơn ngữ lập trình Thời gian hoạt động liên tục Robot khoảng hệ thống nhúng Raspberry Pi Zero tiêu tốn lượng KẾT LUẬN Robot trợ lý giảng dạy thiết kế có khả giao tiếp với người giọng nói trả lời câu hỏi liên quan đến nội dung môn học cài đặt trước Robot đã thiết kế hoàn thiện phần cứng phần mềm Trong đó, điều khiển robot sử dụng hệ thống nhúng Raspbery Pi Zero thực thi khối chức bao gồm khối nhận dạng giọng nói, khối xử lý ngơn ngữ tự nhiên khối chuyển đổi từ văn sang giọng nói Kết thực nghiệm, robot có khả nhận dạng giọng nói trả lời câu hỏi liên quan đến nội dung mơn học Ngơn ngữ lập trình C Hơn nữa, việc sử dụng khối hiệu chỉnh đặt sau khối Pocketsphinx đã cải thiện tỷ lệ nhận dạng trả lời xác câu hỏi từ 62.5% lên 87.2% Luan van LỜI CẢM ƠN Kết nghiên cứu ứng dụng hỗ trợ từ Đề tài Khoa học Công Nghệ cấp Bộ Bộ Giáo Dục Đào Tạo, mã số B2019-SPK-05, năm 2019-2020 TÀI LIỆU THAM KHẢO [1] B Setiaji and F W Wibowo, “Chatbot Using a Knowledge in Database: Human-toMachine Conversation Modeling,” 2016 7th International Conference on Intelligent Systems, Modelling and Simulation (ISMS), Bangkok, 2016, pp 72-77 [2] G M D'silva, S Thakare, S More and J Kuriakose, “Real world smart chatbot for customer care using a software as a service (SaaS) architecture,” 2017 International Conference on I-SMAC (IoT in Social, Mobile, Analytics and Cloud) (I-SMAC), Palladam, 2017, pp 658-664 [3] M Bates, “Health Care Chatbots Are Here to Help”, IEEE Pulse, vol 10, no 3, pp 12–14, May 2019 [4] D Madhu, C J N Jain, E Sebastain, S Shaji and A Ajayakumar, “A novel approach for medical assistance using trained chatbot,” 2017 International Conference on Inventive Communication and Computational Technologies (ICICCT), Coimbatore, 2017, pp 243246 [5] A Mondal, M Dey, D Das, S Nagpal and K Garda, “Chatbot: An automated conversation system for the educational domain,” 2018 International Joint Symposium on Artificial Intelligence and Natural Language Processing (iSAI-NLP), Pattaya, Thailand, 2018, pp 1-5 [6] B R Ranoliya, N Raghuwanshi and S Singh, “Chatbot for university related FAQs,” 2017 International Conference on Advances in Computing, Communications and Informatics (ICACCI), Udupi, 2017, pp 1525-1530 [7] S J du Preez, M Lall and S Sinha, “An intelligent web-based voice chat bot,” IEEE EUROCON 2009, St.-Petersburg, 2009, pp 386-391 [8] J Liu and B Zhu, “An intelligent personal assistant robot: BoBi secretary,” 2017 2nd International Conference on Advanced Robotics and Mechatronics (ICARM), Hefei, 2017, pp 402-407 Luan van [9] J Han et al., “A trial English class with a teaching assistant robot in elementary school,” 2010 5th ACM/IEEE International Conference on Human-Robot Interaction (HRI), Osaka, 2010, pp 335-335 [10] J Han, S Ji and S Lee, “Development of collective assistant teaching for r-learning in a kindergarten”, 9th International Conference on Ubiquitous Robots and Ambient Intelligence (URAI), Daejeon, 2012, pp 136-139 [11] G Boza-Quispe, J Montalvan-Figueroa, J Rosales-Huamaní and F PuenteMansilla, “A friendly speech user interface based on Google cloud platform to access a tourism semantic website”, 2017 CHILEAN Conference on Electrical, Electronics Engineering, Information and Communication Technologies (CHILECON), Pucon, 2017, pp 1-4 [12] D Huggins-Daines, M Kumar, A Chan, A W Black, M Ravishankar and A I Rudnicky, “Pocketsphinx: A Free, Real-Time Continuous Speech Recognition System for Hand-Held Devices”, 2006 IEEE International Conference on Acoustics Speech and Signal Processing Proceedings, Toulouse, 2006, pp I-I [13] C Patel and S Kopparapu, “Reusing automatic speech recognition platform for resource deficient languages,” 2014 8th International Conference on Signal Processing and Communication Systems (ICSPCS), Gold Coast, QLD, 2014, pp 1-5 [14] A Ene and A Ene, “An application of Levenshtein algorithm in vocabulary learning”, 2017 9th International Conference on Electronics, Computers and Artificial Intelligence (ECAI), Targoviste, 2017, pp 1-4 [15] S Zhang, S Liu and M Liu, “Natural language inference using LSTM model with sentence fusion”, 2017 36th Chinese Control Conference (CCC), Dalian, 2017, pp 1108111085 [16] Q Zhan, L Zhang, H Deng and X Xie, “An Improved LSTM For Language Identification”, 2018 14th IEEE International Conference on Signal Processing (ICSP), Beijing, China, 2018, pp 609-612 Tác giả chịu trách nhiệm viết: Họ tên: TS Trương Ngọc Sơn 10 Luan van Đơn vị: Trường Đại học Sư phạm Kỹ thuật TP.HCM Điện thoại: 0931085929 Email: sontn@hcmute.edu.vn 11 Luan van S K L 0 Luan van