Bài viết Nghiên cứu trợ lý ảo ứng dụng trí tuệ nhân tạo nghiên cứu trợ lý ảo có thể chủ động giao tiếp, tương tác với người sử dụng bằng công nghệ trí thông minh nhân tạo. Mô hình huấn luyện nhận diện giọng nói và phân tích giọng nói phát triển trên thư viện Speech recognition, phân tích âm thanh qua thư viện Pyaudio và playsound, nguồn dữ liệu tìm kiếm truy vấn trên cơ sở dữ liệu trực tuyến.
KHOA HỌC & CÔNG NGHỆ NGHIÊN CỨU TRỢ LÝ ẢO ỨNG DỤNG TRÍ TUỆ NHÂN TẠO RESEARCH ASSISTANCE OF ARTIFICIAL INTELLIGENCE APPLICATION Nguyễn Tiến Dũng, Phạm Trung Thiên*, Lê Ngọc Dũng, Đỗ Văn Tỉnh, Vũ Xuân Tú, Nguyễn Văn Hiệp, Nguyễn Ngọc Thể Khoa Cơ khi, Trường Đại học Kinh tế - Kỹ thuật Cơng nghiệp Đến Tịa soạn ngày 12/02/2022, chấp nhận đăng ngày 11/05/2022 Tóm tắt: Thế giới bùng nổ Cách mạng công nghiệp 4.0 với ứng dụng robot trí tuệ nhân tạo sâu vào sống sinh hoạt hàng ngày Các robot thiết bị tự động trở nên thông minh theo cách chúng để tương tác với người giao tiếp thiết bị với Lĩnh vực xử lý ngôn ngữ tự nhiên trí tuệ nhân tạo cơng nghệ nhận biết ngôn ngữ tự nhiên người ngày phát triển ứng dụng rộng rãi Những nghiên cứu hỗ trợ tương tác tự nhiên người máy, máy học cách hiểu ngôn ngữ người, điều chỉnh tương tác chủ động Bài báo nghiên cứu trợ lý ảo chủ động giao tiếp, tương tác với người sử dụng cơng nghệ trí thơng minh nhân tạo Mơ hình huấn luyện nhận diện giọng nói phân tích giọng nói phát triển thư viện Speech recognition, phân tích âm qua thư viện Pyaudio playsound, nguồn liệu tìm kiếm truy vấn sở liệu trực tuyến Công nghệ xây dựng trợ lý ảo hoàn toàn sử dụng thư viện mã nguồn mở, không bị hạn chế đám mây lưu chữ thông tin liệu huấn luyện đầu vào Trợ lý ảo ứng dụng rộng rãi giao tiếp, giáo dục, ngành dịch vụ đạt độ xác 90% nhóm tiếp tục cải thiện tối ưu hóa hệ thống Từ khóa: Trợ lý ảo, ngơn ngữ tự nhiên, trí tuệ nhân tạo Abstract: The Fourth Industrial Revolution is bursting with robotics and artificial intelligence which go deeply into our daily life Robots and automatic devices are becoming more intelligent in their way to interact with humans and other devices Natural language processing is the technology that is widely developed and applied These studies will support the interaction between humans and machines; machines will study human language and adjust it properly In particular, this virtual assistant can communicate with users who use artificial-intelligence technology The training model for speech recognition and speech analysis is developed on the Speech recognition library, audio analysis through the Pyaudio and playsound libraries, and a search engine query data source on an online database The technology building virtual assistants uses open source, which is not limited to store information and training data Virtual assistants will be widely used in communication, education, and service Keywords: Assistance, natural language, artificial intelligence GIỚI THIỆU Ngày phát triển hệ thống trí tuệ nhân tạo (AI) có khả tổ chức tương tác người máy cách tự nhiên (thơng TẠP CHÍ KHOA HỌC & CƠNG NGHỆ SỐ 33 - 2022 qua giọng nói, giao tiếp, cử chỉ, nét mặt ) ngày phổ biến Một hướng nghiên cứu phổ biến hướng tương tác, dựa hiểu biết 29 KHOA HỌC & CƠNG NGHỆ máy móc ngơn ngữ tự nhiên người Nó khơng cịn người học cách giao tiếp với máy móc, mà máy móc học cách giao tiếp với người, khám phá hành động, thói quen, hành vi họ cố gắng trở thành trợ lý cá nhân hóa họ Cơng việc tạo cải tiến trợ lý cá nhân hóa diễn thời gian dài Các hệ thống không ngừng cải tiến cải tiến, vượt ngồi máy tính cá nhân tạo dựng vững cho thiết bị di động tiện ích khác Trợ lý ảo (có thể gọi trợ lý kỹ thuật số, trợ lý giọng nói trợ lý AI) ứng dụng lập trình hướng nhiệm vụ, nhận dạng giọng nói người thực lệnh phát âm người dùng Nền tảng AI suất dựa vào việc lưu trữ hàng triệu từ hàng triệu cụm từ Không giống thiết bị nhận dạng giọng nói mà nhà khoa học nghiên cứu vào năm 40-50 kỷ XX, trợ lý kỹ thuật số đại không bị hạn chế mẫu ngôn ngữ từ vựng định Vào năm 1960, Bộ Quốc phòng Hoa Kỳ quan tâm đến loại công việc bắt đầu đào tạo máy tính để bắt chước lý luận người Công việc mở đường cho tự động hóa lý luận thức mà thấy máy tính ngày Năm 1966 Báo cáo Ủy ban Tư vấn xử lý ngôn ngữ tự động (ALPAC) phủ Hoa Kỳ nêu chi tiết thiếu tiến nghiên cứu dịch máy, sáng kiến lớn chiến tranh lạnh với lời hứa dịch tự động tiếng Nga Năm 1970 nhà nghiên cứu Đại học Carnegie Mellon Pittsburgh, Pennsylvania với hỗ trợ Bộ Quốc phòng Hoa Kỳ Cơ quan Dự án Nghiên cứu Quốc phòng Tiên tiến (DARPA) - tạo 30 máy Harpy Nó hiểu gần 1.000 từ, gần từ vựng đứa trẻ ba tuổi Vào tháng năm 1997, Dragon NataturalSpeaking phần mềm chỉnh sửa tả hiểu khoảng 100 từ biến thành nội dung đọc Năm 1982 Bộ Thương mại Quốc tế Công nghiệp Nhật Bản khởi động dự án Hệ thống máy tính hệ thứ năm đầy tham vọng Mục tiêu FGCS phát triển hiệu giống siêu máy tính tảng để phát triển trí tuệ nhân tạo AI 2005 STANLEY, xe tự lái, chiến thắng DARPA Grand Challenge Quân đội Hoa Kỳ bắt đầu đầu tư vào robot tự hành “Big Dog” Boston Dynamic “PackBot” iRobot trợ lý ảo 2008 Google tạo bước đột phá nhận dạng giọng nói giới thiệu tính ứng dụng iPhone đưa trợ lý ảo giọng nói phổ biến thương mại thị trường Một trợ lý giọng nói phổ biến Siri Apple, Amazon Echo, ứng với tên Alex từ Amazon, Cortana từ Microsoft, Google Assistant từ Google Xử lý ngôn ngữ tự nhiên (natural language processing - NLP) nhánh trí tuệ nhân tạo tập trung vào ứng dụng ngơn ngữ người Trong trí tuệ nhân tạo xử lý ngơn ngữ tự nhiên phần khó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ - cơng cụ hồn hảo tư giao tiếp Trợ lý ảo (có thể gọi trợ lý kỹ thuật số, trợ lý giọng nói trợ lý AI) ứng dụng nhận dạng giọng nói người thực lệnh phát âm người dùng) nhằm phát triển trợ lý cá nhân điều khiển giọng nói thực nhiều việc TẠP CHÍ KHOA HỌC & CÔNG NGHỆ SỐ 33 - 2022 KHOA HỌC & CÔNG NGHỆ tự chủ nghe trả lời câu hỏi với tư logic trí tuệ nhân tạo, tìm kiếm thơng tin internet hỏi trả lời thơng tin tìm kiếm được, chủ động tác vụ hành động tương tác với thiết bị ngoại vi mở ứng dụng, điều khiển thiết bị ngoại vi Trợ lý ảo mở khởi chạy ứng dụng web nhớ cục máy tính người dùng 2.2 Nguyên lý hệ thống NGUYÊN LÝ HOẠT ĐỘNG 2.1 Nguyên lý chung Nguyên lý chung hệ thống trợ lý ảo dựa phương pháp học máy sử dụng lượng lớn liệu thu thập từ nhiều nguồn khác nhau, sau đào tạo chúng, nguồn liệu đóng vai trị quan trọng, hệ thống tìm kiếm, nguồn thơng tin khác mạng xã hội Số lượng thông tin từ nguồn khác xác định chất trợ lý, kết xác khơng xác tùy thuộc nguồn liệu Xây dựng hệ thống tự huấn luyện từ nguồn liệu nhờ nghiên cứu xây dựng sử dụng module thư viện mã nguồn mở Mỗi hệ thống trợ lý ảo có phương pháp tiếp cận để học tập, thuật toán kỹ thuật khác nhau, nguyên tắc xây dựng hệ thống xấp xỉ giống Các công nghệ sử dụng để tạo hệ thống tương tác thông minh với người ngôn ngữ tự nhiên giọng nói kích hoạt, nhận dạng giọng nói tự động, dạy sang giọng nói ((Teach-To-Speech), sinh trắc học giọng nói (Voice biometrics), trình quản lý hộp thoại (Dialog manager), hiểu ngôn ngữ tự nhiên (Natural language understanding) công nhận thực thể đặt tên (Named entity recognition) TẠP CHÍ KHOA HỌC & CƠNG NGHỆ SỐ 33 - 2022 Hình Sơ đồ nguyên lý hệ thống Giọng nói chủ động nói vào microphone, microphone thu nhận tín hiệu âm để nhận dạng giọng nói chuyển đổi đầu vào giọng nói thành văn chữ Giọng nói nhận diện dựa mơ hình huấn luyện để nhận biết âm chuyển sang văn nghĩa Văn sau đưa đến xử lý trung tâm để xác định chất lệnh gọi tập lệnh liên quan cho chấp hành Sau xử lý nhận dạng hiểu lệnh yêu cầu, chạy thuật tốn tìm kiếm xử lý thơng tin nhận Khi có kết sau thuật tốn xử lý, kết in dạng text văn Kết văn lại chuyển đổi thành dạng âm phát loa để kết thúc chu trình câu lệnh giao tiếp XÂY DỰNG HỆ THỐNG 3.1 Cấu trúc hệ thống Hình Cấu trúc hoạt động hệ thống 31 KHOA HỌC & CƠNG NGHỆ Hình mơ tả cấu trúc hệ thống trợ lý ảo giọng nói có ba module nghe, hiểu nói ngồi cịn có tảng sở liệu cung cấp tri thức Tồn hệ thống chạy ngơn ngữ lập trình Python với thư viện python A Nghe: Nhận dạng giọng nói hệ thống sử dụng hệ thống nhận dạng giọng nói trực tuyến sử dụng thư viện Speech_recognition để chuyển đổi đầu vào giọng nói thành văn Người dùng lấy văn từ kho tài liệu đặc biệt tổ chức máy chủ mạng máy tính trung tâm thơng tin từ micrơ lưu trữ tạm thời hệ thống, sau gửi đến đám mây Google để nhận dạng giọng nói Văn tương đương sau nhận đưa đến xử lý trung tâm hành mà thực thi Điều bao gồm dịch vụ liên quan đến phần cứng (ví dụ: truy cập ổ đĩa cứng), tạo thực thi quy trình giao tiếp với dịch vụ nhân tích hợp chẳng hạn lập lịch quy trình Hệ thống cung cấp gọi giao diện thiết yếu quy trình hệ điều hành F Nói: Chuyển văn thành giọng nói Text-to-Speech (TTS) đề cập đến khả máy tính đọc to văn Cơng cụ TTS chuyển đổi văn viết thành phiên âm biểu diễn, sau chuyển đổi biểu diễn âm vị thành dạng sóng phát dạng âm Các công cụ TTS với ngôn ngữ, phương ngữ từ vựng chun ngành có sẵn thơng qua nhà xuất bên thứ ba 3.2 Thiết kế hệ thống B Hiểu: Đây não trợ lý ảo sử dụng robot_brain Phần hỗ trợ Python nhận đầu từ mơđun nhận dạng giọng nói sau xác định xem lệnh hay giọng nói đầu lệnh gọi API, trích xuất ngữ cảnh lệnh gọi hệ thống Đầu sau gửi trở lại chương trình phụ trợ python để đưa yêu cầu xuất cho người dùng C Trích xuất ngữ cảnh: Trích xuất ngữ cảnh (CE) nhiệm vụ trích xuất tự động thơng tin có cấu trúc từ khơng có cấu trúc / bán cấu trúc tài liệu đọc máy Trong hầu hết trường hợp, hoạt động liên quan đến việc xử lý văn ngôn ngữ người phương thức tự nhiên xử lý ngôn ngữ (NLP) Các hoạt động gần xử lý tài liệu đa phương tiện thích tự động trích xuất nội dung khỏi hình ảnh / âm / video coi kết kiểm tra trích xuất ngữ cảnh E Cuộc gọi hệ thống: Trong máy tính, lệnh gọi hệ thống cách lập trình chương trình máy tính u cầu dịch vụ từ hệ điều 32 Hình Thư viện hỗ trợ Hệ thống trợ lý ảo giọng nói khởi chạy tảng window với ngơn ngữ python Để khởi chạy hệ thống nghe, hiểu, nói nghiên cứu sử dụng thư viên hỗ trợ hình Điển hình thư viện speech_recognition để nhận dạng âm giọng nói thư viên Playsound để phát âm loa Ngồi hệ thống cịn sử dụng thư viện thời gian, thời tiết… TẠP CHÍ KHOA HỌC & CÔNG NGHỆ SỐ 33 - 2022 KHOA HỌC & CƠNG NGHỆ Xử lý ngơn ngữ tự nhiên mảng nghiên cứu khó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ tư giao tiếp chưa kể dạng tiếng việt Nghiên cứu xử lý ngơn ngữ tiếng việt nhiều vùng miền, nam lẫn nữ, tương đối phức tạp Nghiên cứu nhóm sử dụng thư viện tiếng việt tích hợp hỗ trợ hệ thống “language = 'vi'” Tuy chất lượng xử lý tiếng việt chưa thực tuyệt vời với tất giọng vùng miền với giọng điệu ngôn ngữ phổ thơng xử lý hồn tồn tốt r.recognition_google khơng nhận dạng hàm get_audio() trả giá trị Hiểu: Robot_Brain sau nhận tín hiệu nghe truy suất vào thư viện hỗ trợ chương trình thư viện ngày, giờ, duyệt web, truy suất hệ thống, khởi chạy ứng dụng Ưu điểm sử dụng thư viện tích hợp giúp hệ thống bớt cồng kềnh việc lưu trữ liệu đám mây, không cần cung cấp liệu dạy học cho hệ thống mà sử dụng tảng có sẵn Hình thuật tốn truy suất liệu hệ thống qua thư viện hỗ trợ kho liệu trực tuyến hệ thống Nói: Kết liệu tìm kiếm hệ thống thư viện dạy học kiểm chứng trích xuất kết dạng văn Văn kết chuyển thành liệu định dạng âm phát loa Hình cấu trúc tập lệnh chuyển đổi Hình Thuật tốn tìm kiếm liệu Nghe với thư viện speech_recognition (sr) có chức nhận dạng giọng nói để chuyển âm thành văn Âm đọc vào microphone máy tính sau xử lý qua hàm listen sr.Recognition lưu liệu âm vào biến audio Dữ liệu âm audio thu nhận dạng ngôn ngữ tiếng việt hàm r.recognize_google để chuyển thành dạng văn lưu liệu vào biến text Nếu liệu âm audio không lỗi tức hàm r.recognize_google nhận dạng audio để chuyên thành text hàm get_audio() trả giá trị text liệu audio bị lỗi mà hàm TẠP CHÍ KHOA HỌC & CƠNG NGHỆ SỐ 33 - 2022 Hình Tập lệnh nói trợ lý ảo KẾT QUẢ THẢO LUẬN Tiến hành thử nghiệm giao tiếp ngẫu nghiên với Trợ lý ảo lần 50 câu lấy kết Bảng kết đánh giá: Thử nghiệm Số câu Số câu sai Độ xác 28/50 22/50 56% 31/50 19/50 62% 24/50 26/50 48% 39/50 11/50 78% 43/50 7/50 90% 33 KHOA HỌC & CÔNG NGHỆ Đánh giá kết thử nghiệm Dựa bảng kết thấy độ xác tăng dần Có thể giải thích vì: Lần 1: Giao tiếp với trợ lý ảo có câu trợ lý ảo chưa huấn luyện nên dẫn tới khơng hiểu trả lời sai Vì độ xác thấp Lần 2: Những câu trả lời huấn luyện lại cho trợ lý ảo hiểu, nên lần sau gặp câu trả lời ý người dùng Vì độ xác tăng thêm Lần 3: Giao tiếp nội dung khác nhau, huấn luyện chưa có nội dung nên trả lời sai độ xác cũng thấp Lần 4, 5: Khi huấn luyện tiếp, độ xác tăng người dùng nói nội dung trợ lý ảo huấn luyện Trong báo này, Nhóm nghiên cứu đưa thiết kế mã nguồn mở môđun phần mềm với hỗ trợ thư viện python Hướng nghiên cứu giúp xây dựng hệ thống đơn giản hơn, dễ dàng thêm tính bổ sung mà khơng làm ảnh hưởng đến chức hệ thống Nó không hoạt động theo lệnh người mà đưa phản hồi cho người dùng sở truy vấn hỏi từ nói người dùng chẳng hạn mở tác vụ hoạt động Với kết thực nghiệm mơ hình hệ thống qua 50 câu hỏi nội dung có kết thống kê: Thời gian phản hồi giây; độ xác thơng tin trả 90%; liệu truy vấn theo thời gian thực xác 99%; Phạm vi thông tin ưu tiên kết trả lời phụ thuộc thuật toán google Tuy nhiên, q trình nhận dạng giọng nói gặp phải phức tạp nhiễu Có nhiểu yếu tố khác đóng vai trị gây nhiễu làm ảnh hưởng tới kết nhận dạng cũng chạy thuật toán gây sai số sấp xỉ 10% Tiếng ồn xung quanh dễ dàng khiến thiết bị nhận dạng giọng nói chệch hướng Hay giọng đặc trưng vùng miền mà thư viện với liệu chưa đươc huấn luyện kỹ KẾT LUẬN Nghiên cứu trình bày nghiên cứu thiết kế trợ lý ảo giọng nói ứng dụng xử lý ngơn ngữ tự nhiên trí tuệ nhân tạo Kết nghiên cứu áp dụng thực tế sống giảng dạy làm ví dụ cho sinh viên khả xử lý ngơn ngữ tự nhiên trí tuệ nhân tạo hay làm trợ lý trả lời câu hỏi sinh viên lĩnh vực trợ lý huấn luyện liệu Hướng nghiên cứu phát triển tự xây dựng sở liệu thư viện để huấn luyện cho trợ lý mảng kiến thức liệu đặc thù chưa có sẵn thư viện hỗ trợ TÀI LIỆU THAM KHẢO [1] G Bohouta, V Z Këpuska, "Comparing Speech Recognition Systems (Microsoft API Google API And CMU Sphinx)", Int Journal of Engineering Research and Application 2017, (2017) [2] Hill, J., Ford, W.R and Farreras, I.G., “Real conversations with artificial intelligence: A comparison between human– human online conversations and human–chatbot conversations” Computers in Human Behavior, 49, pp.245-250, (2015) [3] M Bapat, H Gune, and P Bhattacharyya, “A paradigm-based finite state morphological analyzer for marathi,” in Proceedings of the 1st Workshop on South and Southeast Asian Natural Language Processing (WSSANLP), pp 26–34, (2010) 34 TẠP CHÍ KHOA HỌC & CƠNG NGHỆ SỐ 33 - 2022 KHOA HỌC & CÔNG NGHỆ [4] G Muhammad, Y Alotaibi, M N Huda, “ Pronunciation variation for asr: A survey of the “Automatic speech recognition for bangla digits,” literature,” Speech Communication, vol 29, no in Computers and Information Technology, 2009 2, pp 225–246, (1999) [5] S.R Eddy, “Hidden Markov models”, Current opinion in structural biology”, vol 6, no 3, pp 361–365, (1996) [6] Srivastava and S Prakash, "An Analysis of Various IoT Security Techniques: A Review," 2020 8th International Conference on Reliability, Infocom Technologies and Optimization (Trends and Future Directions) (ICRITO), pp 355- 362, doi: 10.1109/ICRITO48877.2020.9198027, (2020) [7] Saijshree Srivastava, Surya Vikram Singh, Rudrendra Bahadur Singh, Himanshu Kumar Shukla,” Digital Transformation of Healthcare: A blockchain study” International Journal of Innovative Science, Engineering & Technology, Vol Issue 5, May (2021) Thông tin liên hệ: Phạm Trung Thiên Điện thoại: 0963284444 - Email: ptthien.ck@uneti.edu.vn Khoa Cơ khí, Trường Đại học Kinh tế - Kỹ thuật Cơng nghiệp TẠP CHÍ KHOA HỌC & CÔNG NGHỆ SỐ 33 - 2022 35 ... LUẬN Nghiên cứu trình bày nghiên cứu thiết kế trợ lý ảo giọng nói ứng dụng xử lý ngơn ngữ tự nhiên trí tuệ nhân tạo Kết nghiên cứu áp dụng thực tế sống giảng dạy làm ví dụ cho sinh viên khả xử lý. .. cụ hoàn hảo tư giao tiếp Trợ lý ảo (có thể gọi trợ lý kỹ thuật số, trợ lý giọng nói trợ lý AI) ứng dụng nhận dạng giọng nói người thực lệnh phát âm người dùng) nhằm phát triển trợ lý cá nhân điều... Assistant từ Google Xử lý ngôn ngữ tự nhiên (natural language processing - NLP) nhánh trí tuệ nhân tạo tập trung vào ứng dụng ngơn ngữ người Trong trí tuệ nhân tạo xử lý ngơn ngữ tự nhiên phần