Phát triển công cụ hỗ trợ tương tác người máy bằng tiếng nói sử dụng công nghệ xử lý ngôn ngữ tự nhiên tiếng việt và ứng ụng cho bảng thông tin điện tử công cộng tại viện đại học mở hà nội mã số v2018 17

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC MỞ HÀ NỘI BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP TRƯỜNG PHÁT TRIỂN CÔNG CỤ HỖ TRỢ TƯƠNG TÁC NGƯỜI – MÁY BẰNG TIẾNG NÓI SỬ DỤNG CÔNG NGHỆ XỬ LÝ NGÔN NGỮ TỰ NHIÊN TIẾNG VIỆT VÀ ỨNG DỤNG CHO BẢNG THÔNG TIN ĐIỆN TỬ CÔNG CỘNG TẠI VIỆN ĐẠI HỌC MỞ HÀ NỘI Mã số: V2018 - 17 Xác nhận quan Chủ nhiệm đề tài chủ trì đề tài TS Dương Thăng Long HÀ NỘI – 12/2018 DANH SÁCH THÀNH VIÊN THAM GIA NGHIÊN CỨU ĐỀ TÀI VÀ ĐƠN VỊ PHỐI HỢP Danh sách thành viên tham gia nghiên cứu đề tài ThS Đỗ Ngọc Anh ThS Trần Tiến Dũng ThS Dương Chí Bằng ThS Vương Thu Trang Các đơn vị phối hợp Khoa Công nghệ thông tin, Trung tâm Công nghệ & Học liệu, Bộ phận truyền thông Viện Đại học Mở Hà Nội MỤC LỤC DANH MỤC BẢNG BIỂU & HÌNH VẼ DANH MỤC TỪ VIẾT TẮT PHẦN I: MỞ ĐẦU I.1 Tính cấp thiết đề tài I.2 Tình hình nghiên cứu I.3 Mục đích nghiên cứu 10 I.4 Đối tượng phạm vi nghiên cứu 10 I.5 Phương pháp nghiên cứu 11 PHẦN II: NỘI DUNG VÀ KẾT QUẢ NGHIÊN CỨU 12 Chương Phương pháp nhận dạng tiếng nói đặc điểm tiếng nói tiếng Việt 12 1.1 Giới thiệu tốn nhận dạng tiếng nói ứng dụng 12 1.2 Quy trình số kỹ thuật cho toán nhận dạng tiếng nói 20 1.3 Một số đặc điểm tiếng nói tiếng Việt 27 Chương Phát triển cơng cụ nhận dạng tiếng nói sử dụng dịch vụ điện toán đám mây 33 2.1 Kiến trúc ứng dụng hướng dịch vụ điện toán đám mây 33 2.2 Một số dịch vụ điện toán đám mây cho nhận dạng tiếng nói 39 2.3 Mơ hình ứng dụng nhận dạng tiếng nói đám mây Google 47 Chương Xây dựng ứng dụng nhận dạng tiếng nói tiếng Việt sử dụng kiến trúc hướng dịch vụ điện toán đám mây thử nghiệm 54 3.1 Một số công cụ phát triển ứng dụng 54 3.2 Mơ hình số thiết kế cho ứng dụng 60 3.3 Thử nghiệm đánh giá 69 PHẦN III: KẾT LUẬN & KIẾN NGHỊ 76 III.1 Kết luận 76 III.2 Kiến nghị 77 TÀI LIỆU THAM KHẢO 78 Phát triển công cụ hỗ trợ tương tác người – máy tiếng nói sử dụng cơng nghệ xử lý ngôn ngữ tự nhiên tiếng Việt ứng dụng cho bảng thông tin điện tử công cộng Viện Đại học Mở Hà Nội DANH MỤC BẢNG BIỂU & HÌNH VẼ Hình 1.1: Mơ hình tốn nhận dạng tiếng nói 13 Hình 1.2: Cấu trúc hệ thống nhận dạng tiếng nói theo mẫu 16 Hình 1.3: Tích hợp tri thức nhận dạng tiếng nói 18 Hình 1.4: Kiến trúc hệ thống nhận dạng tiếng nói 20 Hình 1.5: Minh hoạ mơ hình HMM năm trạng thái từ trái sang phải 23 Bảng 1.1: Cấu trúc âm tiết tiếng Việt [?] 29 Bảng 1.2: Ví dụ cấu trúc ngữ âm từ “chuyển” 29 Bảng 1.3: Tập âm vị ngữ âm tiếng Việt [?] 30 Hình 1.6: Các đường đặc tính điệu tiếng Việt [?] 31 Hình 2.1: Các dịch vụ dựa kiến trúc điện toán đám mây 33 Hình 2.2: Phân cấp loại hình điện tốn đám mây 35 Hình 2.3: Mơ hình triển khai điện tốn đám mây 36 Hình 2.4: Hệ sinh thái tảng đám mây Google 37 Hình 2.5: Kiến trúc client/server gRPC 37 Hình 2.6: Kết nối sử dụng Speech API từ ứng dụng 39 Hình 2.7: Luồng thực chuyển đổi âm thành văn 42 Hình 2.8: Một số dịch vụ nhận thức Microsoft 44 Hình 2.9: Sơ đồ trình chung dịch vụ Microsoft 45 Hình 2.10: Sơ đồ hoạt động hệ thống GSA 49 Hình 2.11: Mơ hình kết nối ứng dụng sử dụng dịch vụ GSA 50 Hình 2.12: Màn hình giao diện hệ thống GCP Console 50 Hình 2.13: Sơ đồ ghi âm gửi yêu cầu nhận dạng 52 Hình 2.14: Sơ đồ chờ tiếp nhận kết nhận dạng xử lý 53 Bảng 3.1: Danh mục số lớp đối tượng 55 Hình 3.1: Sơ đồ phân cấp lớp đối tượng xử lý thu âm Java 60 Hình 3.2: Sơ đồ tổng thể công cụ nhận dạng tiếng nói 61 Hình 3.3: Sơ đồ thu âm dựa hệ thống thư viện Java 62 Hình 3.4: Cơ chế cửa sổ thời gian cho rời rạc hố tín hiệu âm 63 Hình 3.5: Minh họa chế cửa sổ xác định điểm dừng lời nói 64 Hình 3.6: Quy trình thực thi luồng thu âm nhận dạng tiếng nói 64 Đề tài Khoa học công nghệ cấp Trường, mã số: V2018-17 Phát triển công cụ hỗ trợ tương tác người – máy tiếng nói sử dụng cơng nghệ xử lý ngôn ngữ tự nhiên tiếng Việt ứng dụng cho bảng thông tin điện tử công cộng Viện Đại học Mở Hà Nội Hình 3.7: Sơ đồ ứng dụng nhận dạng tiếng nói vào bảng tin điện tử 66 Bảng 3.2: Định dạng danh sách tập lệnh cho bảng tin 67 Hình 3.8: Sơ đồ ứng dụng nhận dạng tiếng nói vào nhập điểm thi 68 Hình 3.9: Mơ hình chuyển liệu từ công cụ đến ứng dụng 68 Hình 3.10: Giao diện thiết lập tham số cho nhận dạng tiếng Việt 70 Hình 3.11: Giao diện thiết lập tham số lệnh tương tác bảng tin 71 Bảng 3.3: Danh sách mô tả bảng điểm thử nghiệm 72 Hình 3.12: Bảng điểm loại dễ (chỉ có điểm chẵn) 72 Hình 3.13: Bảng điểm loại trung bình (có điểm lẻ) 73 Hình 3.14: Bảng điểm loại khó (có hai dãy điểm có điểm lẻ) 73 Hình 3.15: Kết so sánh thời gian nhập điểm thử nghiệm 74 Hình 3.16: Kết so sánh thời gian nhập điểm thử nghiệm 74 Hình 3.17: Kết so sánh thời gian nhập điểm thử nghiệm 74 Hình 3.18: Kết so sánh thời gian nhập điểm thử nghiệm 75 Hình 3.19: Kết so sánh thời gian trung bình nhập điểm 75 Đề tài Khoa học công nghệ cấp Trường, mã số: V2018-17 Phát triển công cụ hỗ trợ tương tác người – máy tiếng nói sử dụng cơng nghệ xử lý ngôn ngữ tự nhiên tiếng Việt ứng dụng cho bảng thông tin điện tử công cộng Viện Đại học Mở Hà Nội DANH MỤC TỪ VIẾT TẮT Stt Từ viết tắt Ý nghĩa đầy đủ GSA Google Speech API, thư viện cho lập trình khai thác dịch vụ nhận dạng tiếng nói Google HMM Hidden Markov Model, mơ hình Markov ẩn cho phương pháp nhận dạng tiếng nói NLP Natural Language Processing, xử lý ngôn ngữ tự nhiên SaaS Software as a Service, phần mềm dạng dịch vụ IaaS Infrastructure as a Service, hạ tầng dạng dịch vụ PaaS Platform as a Service, tảng dạng dịch vụ GCP Google Cloud Platform, tảng dịch vụ đám mây Google gRPC Google Remote Procedure Call, chế gọi thủ tục từ xa Google JSON JavaScript Object Notation, cấu trúc liệu mở mô tả đối tượng ngôn ngữ kịch Java Đề tài Khoa học công nghệ cấp Trường, mã số: V2018-17 Phát triển công cụ hỗ trợ tương tác người – máy tiếng nói sử dụng cơng nghệ xử lý ngôn ngữ tự nhiên tiếng Việt ứng dụng cho bảng thông tin điện tử công cộng Viện Đại học Mở Hà Nội PHẦN I: MỞ ĐẦU I.1 Tính cấp thiết đề tài Cuộc cách mạng công nghiệp lần thứ tạo sức mạnh công nghệ mạnh mẽ ứng dụng sâu rộng vào sống, giúp nâng hiệu công việc với cao chất lượng sản phẩm, sống ngày nâng cao Trong đó, cơng nghệ xử lý ngơn ngữ tự nhiên nói chung cơng nghệ tổng hợp, nhận dạng tiếng nói nghiên cứu, phát triển ứng dụng mạnh mẽ hãng công nghệ lớn Google, IBM, họ cung cấp dịch vụ ứng dụng cho nhà phát triển Công nghệ nhận dạng tiếng nói giúp cho người tương tác với thiết bị máy móc cách thuận tiện hơn, tự nhiên đặc biệt thiết bị, máy móc hiểu tiếng nói người hoạt động tương tác Với công nghệ này, việc lệnh nhập liệu cho thiết bị máy tính trở nên dễ dàng nhu cầu trao đổi thông tin, tương tác người với thiết bị ngày nhiều hơn, đa dạng Việc phát triển công cụ tương tác người - máy tiếng nói nhằm giúp cho trao đổi thông tin người dùng máy tính trở nên dễ dàng thuận tiện, đặc biệt số ứng dụng mang tính cơng cộng bảng thông tin điện tử, nhập liệu đa người dùng, nghiên cứu ứng dụng có ý nghĩa thực tiễn cao Đề tài mong muốn nghiên cứu cơng nghệ nhận dạng tiếng nói tiếng Việt, dịch vụ cung cấp dựa tảng điện tốn đám mây cơng nghệ ứng dụng vào số phạm vi toán thực tiễn nhằm đem lại hiệu cao I.2 Tình hình nghiên cứu a) Ngồi nước (phân tích, đánh giá tình hình nghiên cứu thuộc lĩnh vực đề tài giới, liệt kê danh mục công trình nghiên cứu, tài liệu có liên quan đến đề tài trích dẫn đánh giá tổng quan) Hiện nay, giới, việc nghiên cứu phát triển cơng nghệ nhận dạng tiếng nói thực sâu rộng mạnh mẽ Các mô hình đưa nhằm nâng cao chất lượng hiệu phương pháp, kỹ thuật phát triển phân phối kết công nghệ dựa điện tốn đám mây triển khai sơi động, giúp cho nhà phát triển thứ ba dễ dàng ứng dụng thành tựu công nghệ bật vào phục vụ tốn lĩnh vực sống Có thể thấy nhận dạng tiếng nói chuyển đổi lời nói thành chuỗi từ ngôn ngữ thể chương trình máy tính Tiếng nói Đề tài Khoa học công nghệ cấp Trường, mã số: V2018-17 Phát triển công cụ hỗ trợ tương tác người – máy tiếng nói sử dụng cơng nghệ xử lý ngôn ngữ tự nhiên tiếng Việt ứng dụng cho bảng thông tin điện tử công cộng Viện Đại học Mở Hà Nội phương thức truyền thông tự nhiên cho người, mục tiêu cao nhận dạng tiếng nói để người giao tiếp với máy tính thiết bị thơng minh cách tự nhiên hiệu Mục tiêu địi hỏi tích hợp sâu rộng với nhiều thành phần xử lý ngôn ngữ tự nhiên (NLP) cần nghiên cứu Hầu hết công nghệ đại thường dựa mơ hình thống kê mơ hình Markov ẩn (HMMs) Một lý HMM phổ biến tham số chúng ước lượng cách tự động từ lượng lớn liệu, chúng đơn giản tính khả thi mặt tính tốn Trong thực tế, hệ thống xử lý tiếng nói thường sử dụng ngữ pháp văn phạm phi ngữ cảnh (CFG) n-gram thống kê lý tương tự mà HMMs sử dụng cho mơ hình hóa âm Sơ đồ quy trình tổng thể trình nhận dạng tiếng nói rút gọn sau [?]: + Feature Extraction: thực trích chọn đặc trưng tín hiệu tiếng nói (có thể phương pháp MFCC), đồng thời thực ước lượng vector vector đặc trưng này + Acoustic Model: mơ hình hố âm sau trích chọn đặc trưng Mơ hình âm cần để mơ tả cách phát âm từ tương ứng với âm tiếng nói phát Các mơ hình âm phụ thuộc nhiều vào loại ứng dụng (ví dụ phát biểu, mệnh lệnh) Nói chung, số khó khăn thực để mơ hình âm có tính khả thi mặt tính tốn Các mơ hình âm thường sử dụng mơ hình HMM + Language Model: vấn đề mơ hình hố ngơn ngữ, tức là, để định làm để tính xác suất tiên đốn cho chuỗi từ Mơ hình phổ biến dựa giả định Markovian từ câu điều kiện dựa N-1 từ trước Phương pháp mơ hình hóa gọi N-gram Có nhiều cơng trình cơng bố nước ngồi liên quan đến nhận dạng tiếng nói công nghệ xử lý ngôn ngữ liên quan gồm: Xuedong Huang and Li Deng, An Overview of Modern Speech Recognition, Microsoft Corporation, 2010 André Gustavo Adami, Automatic Speech Recognition: From the Beginning to the Portuguese Language, Universidade de Caxias Sul, Centro de Computaỗóo e Tecnologia da Informaỗóo Tripti Dodiya1, Sonal Jain, Speech Recognition System for Medical Domain, International Journal of Computer Science and Information Technologies, Vol (1), 2016, pp.185-189 Đề tài Khoa học công nghệ cấp Trường, mã số: V2018-17 Phát triển công cụ hỗ trợ tương tác người – máy tiếng nói sử dụng cơng nghệ xử lý ngơn ngữ tự nhiên tiếng Việt ứng dụng cho bảng thông tin điện tử công cộng Viện Đại học Mở Hà Nội Shinya Iizuka and Kosuke Tsujino, Speech Recognition Technology and Applications for Improving Terminal Functionality and Service Usability, NTT DOCOMO Technical Journal Vol 13 No 4, 2012 Shaikh Naziya S., R.R Deshmukh, Speech Recognition System – A Review, Journal of Computer Engineering, Volume 18, Issue 4, Ver II (Jul.Aug 2016), pp.01-09 b) Trong nước (phân tích, đánh giá tình hình nghiên cứu thuộc lĩnh vực đề tài Việt Nam, liệt kê danh mục công trình nghiên cứu, tài liệu có liên quan đến đề tài trích dẫn đánh giá tổng quan) Ở nước, lĩnh vực nhận dạng tiếng nói nghiên cứu sôi động năm gần Nó là trình nhận dạng mẫu, với mẫu là đơn vị nhận dạng, là từ âm vị Khó khăn bài tốn này là tiếng nói ln biến thiên theo thời gian và có khác biệt lớn tiếng nói người nói khác nhau, tốc độ nói, ngữ cảnh và mơi trường âm học khác Các nghiên cứu nhận dạng tiếng nói dựa ba nguyên tắc [?]: - Tín hiệu tiếng nói biểu diễn xác giá trị phổ khung thời gian ngắn (short-term amplitude spectrum) Nhờ ta trích đặc điểm tiếng nói từ khoảng thời gian ngắn và dùng đặc điểm này làm liệu để nhận dạng tiếng nói - Nội dung tiếng nói biểu diễn dạng chữ viết, là dãy ký hiệu ngữ âm Do ý nghĩa phát âm bảo toàn chúng ta phiên âm phát âm thành dãy ký hiệu ngữ âm - Nhận dạng tiếng nói là q trình nhận thức Ngơn ngữ nói có nghĩa, thơng tin ngữ nghĩa (semantics) và ngữ dụng (pragmatics) có giá trị q trình nhận dạng tiếng nói, đặc biệt thơng tin âm học là không rõ ràng Lĩnh vực nghiên cứu nhận dạng tiếng nói là rộng liên quan đến nhiều ngành khác nhau, xử lý tín hiệu số (digital signal proccessing), vật lý hay âm học (acoustic), nhận dạng mẫu, lý thuyết thông tin và khoa học máy tính (information and computer science theory), ngơn ngữ học (linguistics), sinh lý học (physiology), tâm lý học ứng dụng (applied psychology) Các hệ thống nhận dạng tiếng nói phân chia thành hai loại khác nhau: hệ thống nhận dạng từ rời rạc và hệ thống nhận dạng từ liên tục Trong hệ thống nhận dạng tiếng nói liên tục, người ta lại phân biệt hệ thống nhận dạng có kích thước từ điển nhỏ và hệ thống nhận dạng với kích thước từ điển trung bình lớn Một số cơng trình nghiên cứu liên quan đến lĩnh vực nước gồm: Đề tài Khoa học công nghệ cấp Trường, mã số: V2018-17 Phát triển công cụ hỗ trợ tương tác người – máy tiếng nói sử dụng cơng nghệ xử lý ngôn ngữ tự nhiên tiếng Việt ứng dụng cho bảng thông tin điện tử công cộng Viện Đại học Mở Hà Nội Hồ Tú Bảo và Lương Chi Mai, Về xử lý tiếng Việt công nghệ thông tin, Viện Công nghệThông tin, Viện Khoa học Công nghệ tiên tiến Nhật Bản Nguyễn Văn Giáp và Trần Việt Hồng, Kỹ thuật nhận dạng tiếng nói ứng dụng điều khiển, Đại học Bách Khoa TPHCM Nguyễn Cao Quí, Ứng dụng mơ hình Markov ẩn để nhận dạng tiếng nói FPGA, Tạp chí Khoa học Trường Đại học Cần Thơ, Phần A: Khoa học Tự nhiên, Công nghệ và Môi trường: 25 (2013): pp.1-7 Thái Duy Quý, Nhận dạng tiếng nói chữ số việt áp dụng hệ thống nhấp điểm, Tạp chí Khoa học - Đại học Đồng Nai, Số 04 - 2017, ISSN 23541482 Nguyễn Thị Thanh, Nguyễn Hồng Quang, Trịnh Văn Loan, Phạm Ngọc Hưng, Nhận dạng tiếng Việt nói sử dụng cơng cụ KALDI, Tạp chí Khoa học CNTT&TT, Số - (CS.01) 2016 c) Danh mục cơng trình cơng bố thuộc lĩnh vực đề tài chủ nhiệm thành viên tham gia nghiên cứu (họ tên tác giả; báo; ấn phẩm; yếu tố xuất bản) Dương Thăng Long (cn), Trần Tiến Dũng, Mai Thị Thúy Hà, Nghiên cứu độ đo tương đồng văn tiếng Việt ứng dụng hỗ trợ đánh giá việc chép điện tử, Đề tài NCKH cấp sở Viện Đại học Mở Hà Nội, 2014 Dương Thăng Long, Trương Tiến Tùng, Trần Tiến Dũng, Phương pháp đánh giá độ tương tự văn tiếng Việt, Tạp chí khoa học Đại học Mở Hà Nội, Số 14/Tháng 10-2015, tr 70-84, 2015 I.3 Mục đích nghiên cứu Nghiên cứu cơng nghệ nhận dạng tiếng nói dịch vụ điện tốn đám mây phục vụ cho ứng dụng thực tiễn công nghệ nhận dạng tiếng nói Phát triển cơng cụ nhận dạng tiếng nói tiếng Việt dựa dịch vụ điện tốn đám mây ứng dụng nhập liệu, lệnh tương tác với máy tính tiếng nói Thiết kế xây dựng hệ thống tích hợp thiết bị tương tác tiếng nói ứng dụng bảng tin điện tử Viện I.4 Đối tượng phạm vi nghiên cứu Nghiên cứu tổng quan phương pháp nhận dạng tiếng nói nói chung áp dụng cho đặc thù tiếng Việt nói riêng Đề tài Khoa học công nghệ cấp Trường, mã số: V2018-17 10 Phát triển công cụ hỗ trợ tương tác người – máy tiếng nói sử dụng cơng nghệ xử lý ngôn ngữ tự nhiên tiếng Việt ứng dụng cho bảng thông tin điện tử công cộng Viện Đại học Mở Hà Nội Để gửi yêu cầu nhận dạng tiếng nói kèm liệu âm sử dụng phương pháp nhận dạng đồng GSA, cần thiết lập tham số xác thực tài khoản dịch vụ sử dụng GSA theo thao tác xử lý cụ thể sau: try{ FileInputStream =new FileInputStream(“GSA_json_file”); GoogleCredentials = GoogleCredentials.fromStream(  ); FixedCredentialsProvider = FixedCredentialsProvider.create(); SpeechSettings = SpeechSettings.newBuilder() setCredentialsProvider().build();  = SpeechClient.create(  );  = RecognitionConfig.newBuilder() setEncoding( AudioEncoding.LINEAR16 ) setSampleRateHertz( _SAMPLE_RATE ) setLanguageCode("vi-VN") build();  = RecognitionAudio.newBuilder(); }catch(Exception e){ e.printStackTrace(); } Trong đó, đối tượng SpeechClient () dùng để thực thi nhận dạng tiếng nói cách gửi yêu cầu kèm theo cấu hình nhận dạng RecognitionConfig () liệu âm thu âm gói RecognitionAudio.Builder () Tham số _SAMPLE_RATE phải giá trị với tần số lấy mẫu âm thực giai đoạn thu âm (nêu phần trên), tham số 16000 Để thực gửi yêu cầu nhận dạng tiếng nói có điểm dừng lời nói sơ đồ phải đóng gói liệu âm theo chuẩn định dạng định đối tượng RecognitionAudio.Builder () Sau gửi yêu cầu, sử dụng chế nhận dạng đồng nên tiếp nhận kết nhận dạng sau gửi yêu cầu, bước xử lý cụ thể sau sau:  = .setContent( ByteString.copyFrom() ).build(); RecognizeResponse  = .recognize(, audio); List  = .getResultsList(); RecognitionAudio Trong đó, đối tượng mảng byte () chứa liệu âm thu âm (lưu vùng đệm, sử dụng dạng ByteArrayOutputStream) Kết nhận dạng tiếng nói thể dạng danh sách (List) chuỗi văn Mỗi chuỗi văn dãy từ nhận dạng từ lời nói người dùng Trường hợp liệu âm thu âm câu nói liên tục kết thường chuỗi (thứ 0) danh sách thu Đề tài Khoa học công nghệ cấp Trường, mã số: V2018-17 65 Phát triển công cụ hỗ trợ tương tác người – máy tiếng nói sử dụng cơng nghệ xử lý ngôn ngữ tự nhiên tiếng Việt ứng dụng cho bảng thông tin điện tử công cộng Viện Đại học Mở Hà Nội String  = .getAlternativesList().get(0).getTranscript(); Tiếp theo, sử dụng kết nhận dạng chuỗi văn () để xử lý ứng dụng cần thiết Dưới hai ứng dụng thiết lập để minh họa cho tính hữu dụng, ý nghĩa thực tế khả đúng đắn nhận dạng tiếng nói 3.2.2 Ứng dụng cơng cụ nhận dạng tiếng nói bảng tin điện tử Bảng tin điện tử nhằm cung cấp thông tin tổ chức đến người dùng, thông thường bảng tin lắp đặt nơi công cộng dễ dàng việc tiếp nhận (sảnh vào khu làm việc quan chẳng hạn) Tuy nhiên, bảng tin quan thường chiều, tức người dùng tiếp nhận thông tin cung cấp bảng tin mà khơng có tính tương tác người dùng với bảng tin Hơn nữa, việc thiết kế tương tác bảng tin khó khăn sử dụng phương thức tương tác quen thuộc máy tính thơng qua thiết bị chuột bàn phím Nhằm tăng tính hữu ích cho bảng tin thơng qua tương tác đồng thời tạo chế tương tác thuận lợi dễ dàng, ứng dụng chế tương tác ngôn ngữ dựa kết nhận dạng tiếng nói Ở đây, mặc định bảng tin cung cấp thông tin chủ động đến người dùng thông thường, người dùng lệnh tiếng nói bảng tin hiển thị nội dung thơng tin theo u cầu người dùng (Hình 2.#) Việc lệnh định nghĩa trước thông qua danh sách tập lệnh, lệnh gồm từ khóa tương ứng nội dung thơng tin hiển thị Từ khóa lệnh dùng để so khớp câu nói người dùng, câu nói người dùng có chứa từ khóa lệnh thực lệnh đó, tức hiển thị gói thơng tin tương ứng với lệnh Thơng tin Ra lệnh giọng nói (Bảng tin) Cơng cụ nhận dạng tiếng nói Người dùng Hình 3.7: Sơ đồ ứng dụng nhận dạng tiếng nói vào bảng tin điện tử Trường hợp câu nói người dùng có chứa nhiều từ từ khóa tập lệnh mặc định thực thi lệnh tương ứng với từ khóa số từ khóa chứa câu nói Đề tài Khoa học cơng nghệ cấp Trường, mã số: V2018-17 66 Phát triển công cụ hỗ trợ tương tác người – máy tiếng nói sử dụng cơng nghệ xử lý ngơn ngữ tự nhiên tiếng Việt ứng dụng cho bảng thông tin điện tử công cộng Viện Đại học Mở Hà Nội Trong ứng dụng này, khoảng thời gian mà người dùng không tương tác, tức không lệnh tiếng nói, hệ thống bảng tin quay trở trạng thái cung cấp thông tin thông thường Để dễ dàng tương tác cho người dùng, định nghĩa lệnh đặc biệt để hiển thị danh mục lệnh với từ khóa chúng, dùng từ khóa “xem lệnh” Người dùng xem danh sách để biết cần lệnh cách nói từ khóa Danh sách tập lệnh thiết kế mềm dẻo, linh hoạt cách cho phép người dùng định nghĩa thêm lệnh mới, thay đổi từ khóa lựa chọn nội dung thơng tin cần hiển thị tương ứng với lệnh Vì bảng tin điện tử, định dạng gói thơng tin hiển thị cho người dùng hình ảnh đoạn video Ứng dụng cần hiển thị ảnh chạy video tương ứng với lệnh Tệp tin chứa thông tin cung cấp cho người dùng phải bao gồm đường dẫn cụ thể Bảng 3.2: Định dạng danh sách tập lệnh cho bảng tin Stt Định danh lệnh Home Intro … Từ khóa lệnh xem lệnh giới thiệu … Tệp tin liệu chứa thông tin C:\xem_lenh.jpg D:\gioi_thieu.mp4 … Ghi Môi trường ứng dụng bảng tin điện tử cơng cộng, âm nhiễu đa dạng phức tạp, việc thu âm từ người dùng bảng tin khó khăn Chúng ta phải lựa chọn thiết bị thu âm đủ nhạy định hướng người dùng để thu âm cách tốt 3.2.3 Ứng dụng công cụ nhận dạng tiếng nói nhập điểm thi Một cơng việc tốn nhiều thời gian công tác quản lý đào tạo có ứng dụng phần mềm sở giáo dục đào tạo nhập điểm thi người học Thông thường, công việc thực cách người dùng sử dụng danh sách thi có điểm thi chấm từ giảng viên, danh sách thi in từ phần mềm quản lý đào tạo, từ người dùng nhìn vào giá trị điểm thi danh sách để nhập vào phần mềm máy tính Việc vừa nhìn bảng điểm danh sách thi vừa nhập giá trị điểm vào máy tính thường gây nhầm lẫn, tốc độ không cao Để hạn chế nhầm lẫn tăng tốc độ nhập điểm, sử dụng hai người thực cách người vừa quan sát bảng điểm đọc, người thực thao tác nhập điểm Như vậy, việc ứng dụng cơng cụ nhận dạng tiếng nói việc nhập điểm thi hữu ích hạn chế tối đa nhầm lẫn, tăng tốc độ xử lý nhập điểm Việc thực người dùng, vừa quan sát bảng điểm vừa đọc giá trị điểm, hệ thống thu âm giọng đọc người dùng nhận Đề tài Khoa học công nghệ cấp Trường, mã số: V2018-17 67 Phát triển công cụ hỗ trợ tương tác người – máy tiếng nói sử dụng cơng nghệ xử lý ngơn ngữ tự nhiên tiếng Việt ứng dụng cho bảng thông tin điện tử công cộng Viện Đại học Mở Hà Nội dạng giá trị điểm, đồng thời tự động điền liệu điểm vào phần mềm nhập điểm thi máy tính (Hình 3.8) Đọc giá trị điểm thi từ danh sách Bảng điểm Công cụ nhận dạng tiếng nói Người dùng Chức nhập điểm thi phần mềm quản lý đào tạo Xử lý giá trị điểm sau nhận dạng Hình 3.8: Sơ đồ ứng dụng nhận dạng tiếng nói vào nhập điểm thi Cơng cụ nhận dạng tiếng nói ứng dụng thực thi dạng chạy ngầm, song song với phần mềm nhập điểm thi thông thường Khi người dùng đọc giá trị điểm, công cụ thu nhận âm gửi yêu cầu nhận dạng đến GSA, sau kết nhận dạng xử lý để đảm bảo giá trị điểm đưa vào phần mềm nhập điểm đúng đắn quy chuẩn định dạng Ở đây, công cụ nhận dạng cho văn dạng chữ số, ví dụ: đọc “năm phẩy bảy”, cơng cụ nhận dạng cho đúng văn cho số 5,7 Do đó, phải chuẩn hóa liệu sau nhận dạng Nếu dạng chữ phải chuyển đổi dạng số Việc chuyển liệu điểm sau nhận dạng sang phần mềm nhập điểm thi sử dụng chế “clipboard” hệ điều hành Tức là, liệu điểm chép vào vùng đệm clipboard, sau đưa liệu từ clipboard vào ô nhập điểm phần mềm nơi trỏ hội tụ (Hình 3.9) Cơng cụ nhận dạng tiếng Việt Clipboard (vùng đệm trung gian chuyển kết qủa) Ứng dụng tiếp nhận kết nhận dạng Hình 3.9: Mơ hình chuyển liệu từ cơng cụ đến ứng dụng Đề tài Khoa học công nghệ cấp Trường, mã số: V2018-17 68 Phát triển công cụ hỗ trợ tương tác người – máy tiếng nói sử dụng công nghệ xử lý ngôn ngữ tự nhiên tiếng Việt ứng dụng cho bảng thông tin điện tử công cộng Viện Đại học Mở Hà Nội Để thực thao tác chép dán, sử dụng thêm chức gửi thông điệp đến hệ điều hành Trong ngơn ngữ lập trình Java, sử dụng sau: Clipboard  = Toolkit.getDefaultToolkit().getSystemClipboard(); .setContents(new StringSelection( “dữ liệu điểm” ), null); Robot  = new Robot(); .keyPress(KeyEvent.VK_CONTROL); .keyPress(KeyEvent.VK_V); .keyRelease(KeyEvent.VK_CONTROL); .keyRelease(KeyEvent.VK_V); Đồng thời để tự động di chuyển trỏ sang ô nhập điểm hình giao diện phần mềm nhập điểm, dùng chế gửi thơng điệp mã phím điều khiển (Tab mũi tên xuống) 3.3 Thử nghiệm đánh giá 3.3.1 Công cụ nhận dạng tiếng Việt Công cụ phát triển ngôn ngữ Java, chạy độc lập với ứng dụng sử dụng kết nhận dạng Trên công cụ có tính thiết kế bố trí phù hợp, thuận tiện giao diện tiếng Việt dễ sử dụng (Hình 3.10) Trước hết, người dùng cần thiết lập tham số cho công cụ nhận dạng gồm: - Ngưỡng tín hiệu nhiễu nền: tuỳ thuộc vào mơi trường có mức độ nhiễu khác nhau, thực chức “Lấy ngưỡng”, người dùng không phát âm vào micro để thu âm mơi trường, sau tính tốn theo Cơng thức (3.1) để lưu lại mức độ nhiễu môi trường Giá trị thử nghiệm (ở Hình 3.10) 25,96 ngưỡng để xác định có âm nói từ người dùng tín hiệu - Tệp xác thực tài khoản chế độ sử dụng dịch vụ GSA, tệp dạng JSON tải đăng ký tài khoản GCP Người dùng cần nhấn chuột vào ô chứa tên tệp lựa chọn đúng tệp qua hộp thoại lưu lại tên đường dẫn - Thời gian dừng kết thúc lời nói nhằm xác định khoảng lặng nhiễu để hệ thống coi kết thúc q trình phát âm Các âm thu từ phát âm đến thời điểm dừng sử dụng để gửi đến dịch vụ GSA nhận dạng lấy kết xử lý - Thời gian tối đa để ghi âm liên tục nhằm xác định kích thước vùng đệm liệu âm thanh, âm thu liên tục vượt độ lớn hệ thống tự ngắt thực nhận dạng Đề tài Khoa học công nghệ cấp Trường, mã số: V2018-17 69 Phát triển công cụ hỗ trợ tương tác người – máy tiếng nói sử dụng cơng nghệ xử lý ngôn ngữ tự nhiên tiếng Việt ứng dụng cho bảng thông tin điện tử công cộng Viện Đại học Mở Hà Nội - Có hai đánh dấu: để tự động thêm dấu cách vào sau liệu nhận dạng nhằm phân tách liệu liên tục nhập phát âm lại rời rạc, chế độ hữu ích độ lớn liệu vượt kích thước vùng đệm; hai chế độ nhập điểm nhằm thực tiền xử lý kết qủa nhận dạng phục vụ cho nhập điểm thi Khi nhập điểm thi, liệu phải dạng số thoả mãn điều kiện điểm thi, tức nằm khoảng từ đến 10, có chữ số thập phân Hình 3.10: Giao diện thiết lập tham số cho nhận dạng tiếng Việt Trên giao diện này, có chứa kết nhận dạng tiền xử lý có đồng thời với việc tự động chép vào hình ứng dụng thông tin kết nhận dạng Thanh trạng thái thể tiến trình (tỷ lệ %) phía nhằm báo mức độ tín hiệu thu âm từ micrô, tỷ lệ cao đồng nghĩa với âm thu từ lời nói người dùng, ngược lại, tỷ lệ thấp âm 3.3.2 Kết ứng dụng bảng tin Đối với ứng dụng bảng tin điện tử, xây dựng thêm giao diện cho phép thay đổi, cập nhật tham số lệnh tương tác với bảng tin thiết kế phần (Hình 3.11) Đề tài Khoa học cơng nghệ cấp Trường, mã số: V2018-17 70 Phát triển công cụ hỗ trợ tương tác người – máy tiếng nói sử dụng công nghệ xử lý ngôn ngữ tự nhiên tiếng Việt ứng dụng cho bảng thông tin điện tử cơng cộng Viện Đại học Mở Hà Nội Hình 3.11: Giao diện thiết lập tham số lệnh tương tác bảng tin Mỗi lệnh thiết lập nhiều từ khố, người dùng phát âm lệnh câu có chứa từ khố hệ thống coi yêu cầu thực lệnh tương ứng Theo thiết kế nêu trên, lệnh lựa chọn liệu nguồn để chạy ảnh, video hệ thống tự động hiển thị ảnh mở video thực lệnh Ứng dụng thử nghiệm mơi trường máy tính cá nhân chưa sử dụng thiết bị thu âm môi trường công cộng Đối với người dùng, thời gian đầu sai lỗi cao nhận dạng lệnh từ lời nói, đạt kết đúng khoảng 70% Tuy nhiên, sau số lần sử dụng, hệ thống nhận dạng cho kết xác cao hơn, khoảng 90% thực lệnh Kết cịn phụ thuộc vào thiết bị thu âm mơi trường nhiễu ứng dụng đặc điểm người nói 3.3.3 Kết ứng dụng nhập điểm Khi ứng dụng vào phần mềm nhập điểm hệ thống quản lý đào tạo, đề tài thử nghiệm liệu bảng điểm khác (Bảng 3.3), từ giá trị điểm đơn giản (một chữ số) bảng điểm phức tạp (có nhiều điểm lẻ) Rõ ràng, thực tế có nhiều điểm lẻ việc nhập chậm thao tác gõ phím người dùng nhiều Trong đó, việc nhập giọng nói cần đọc giá trị số hệ thống tự động nhận dạng điền vào ô giá trị điểm theo thứ tự danh sách Số người dùng thử Đề tài Khoa học công nghệ cấp Trường, mã số: V2018-17 71 Phát triển công cụ hỗ trợ tương tác người – máy tiếng nói sử dụng cơng nghệ xử lý ngơn ngữ tự nhiên tiếng Việt ứng dụng cho bảng thông tin điện tử công cộng Viện Đại học Mở Hà Nội nghiệm đa dạng, từ người dùng quen tin học người dùng thông thạo với máy tính Trong phần chúng tơi thử nghiệm với người dùng khác Bảng 3.3: Danh sách mô tả bảng điểm thử nghiệm Stt Số SV 30 30 28 29 30 Mức độ phức tạp Dễ Dễ Trung bình Trung bình Khó 30 Khó 32 Khó 31 Khó Mơ tả Ghi Chỉ có điểm chẵn Chỉ có điểm chẵn Có điểm lẻ Có điểm lẻ Cả điểm chuyên cần, điều kiện và có điểm lẻ Cả điểm chuyên cần, điều kiện và có điểm lẻ Cả điểm chuyên cần, điều kiện và có điểm lẻ Cả điểm chuyên cần, điều kiện và có điểm lẻ Một số hình kết chạy nhập điểm giọng nói chức nhập điểm phần mềm quản lý đào tạo sau Hình 3.12: Bảng điểm loại dễ (chỉ có điểm chẵn) Đề tài Khoa học cơng nghệ cấp Trường, mã số: V2018-17 72 Phát triển công cụ hỗ trợ tương tác người – máy tiếng nói sử dụng công nghệ xử lý ngôn ngữ tự nhiên tiếng Việt ứng dụng cho bảng thông tin điện tử công cộng Viện Đại học Mở Hà Nội Hình 3.13: Bảng điểm loại trung bình (có điểm lẻ) Hình 3.14: Bảng điểm loại khó (có hai dãy điểm có điểm lẻ) Kết thử nghiệm người dùng đo thời gian thực so sánh hai phương pháp nhập tay theo cách truyền thống nhập giọng nói thơng qua cơng cụ nhận dạng Các kết qủa cho thấy thời gian nhập giọng nói nhanh đáng kể so với nhập tay (Hình 3.15-3.18) Đặc biệt, với liệu khó hiệu thời gian lớn Tuy nhiên, tương tự nhập tay, phương pháp nhập điểm dựa nhận dạng tiếng nói có sai lỗi nhập định Đối với nhập tay thao tác gõ phím, cịn nhập giọng nói sai lỗi q trình nhận dạng cịn lỗi Điều không tránh khỏi, tỷ lệ sai lỗi phụ thuộc vào tỷ lệ sai lỗi dịch vụ nhận dạng cung cấp Google Cho Đề tài Khoa học công nghệ cấp Trường, mã số: V2018-17 73 Phát triển công cụ hỗ trợ tương tác người – máy tiếng nói sử dụng cơng nghệ xử lý ngôn ngữ tự nhiên tiếng Việt ứng dụng cho bảng thông tin điện tử công cộng Viện Đại học Mở Hà Nội đến nay, qua thử nghiệm, cho thấy tỷ lệ sai lỗi không đáng kể chấp nhận cách kiểm dò, khắc phục nhập lại cho giá trị điểm bị lỗi 90 85 84 60 62 62 80 80 60 80 70 60 60 55 60 50 50 40 50 50 Dễ Trung bình Trung bình Khó Khó Khó Khó 45 47 Dễ 30 20 Thời gian nhập trực tiếp (giây) Thời gian nhập qua giọng nói (giây) Hình 3.15: Kết so sánh thời gian nhập điểm thử nghiệm 100 85 90 89 90 67 69 70 84 80 70 52 60 64 62 57 50 63 58 53 50 40 43 30 Dễ Dễ Trung bình Trung bình Khó Khó Khó Khó Thời gian nhập trực tiếp (giây) Thời gian nhập qua giọng nói (giây) Hình 3.16: Kết so sánh thời gian nhập điểm thử nghiệm 90 82 83 87 86 67 65 67 65 80 70 60 51 54 59 63 50 40 30 43 47 52 49 Dễ Dễ Trung bình Trung bình Khó Khó Khó Khó Thời gian nhập trực tiếp (giây) Thời gian nhập qua giọng nói (giây) Hình 3.17: Kết so sánh thời gian nhập điểm thử nghiệm Đề tài Khoa học công nghệ cấp Trường, mã số: V2018-17 74 Phát triển công cụ hỗ trợ tương tác người – máy tiếng nói sử dụng cơng nghệ xử lý ngơn ngữ tự nhiên tiếng Việt ứng dụng cho bảng thông tin điện tử công cộng Viện Đại học Mở Hà Nội 90 84 86 87 70 72 70 88 80 70 60 62 53 57 50 40 61 74 52 54 47 Dễ 48 Dễ Trung bình Trung bình Khó Khó Khó Khó Thời gian nhập trực tiếp (giây) Thời gian nhập qua giọng nói (giây) Hình 3.18: Kết so sánh thời gian nhập điểm thử nghiệm Kết trung bình lần thử nghiệm thể sơ đồ Hình 3.18 Xét tỷ lệ hiệu quả, cao bảng liệu cuối rút ngắn 15.7% thời gian, thấp liệu dễ rút ngắn 6.4% Tính trung bình tập liệu rút ngắn 11.3% thời gian nhập liệu Nếu tính trung bình sinh viên cho lần thử nghiệm phương án nhập tay chiếm 2.03 giây/sinh viên, cịn phương án nhập giọng nói chiếm 1.8 giây/sinh viên, giảm 11.6% thời gian Một lần nữa, kết qủa cho thấy hiệu mặt thời gian nhập điểm giọng nói liệu bảng điểm khó hiệu 75 70 69.25 68.75 57.5 58.5 58 66.75 67 58 65 60 55 56 51.5 50 45 48.25 57 53.5 49.75 51.75 51 40 Dễ Dễ Trung bình Trung bình Khó Khó Khó Khó Thời gian nhập trực tiếp (giây) Thời gian nhập qua giọng nói (giây) Hình 3.19: Kết so sánh thời gian trung bình nhập điểm Đề tài Khoa học công nghệ cấp Trường, mã số: V2018-17 75 Phát triển công cụ hỗ trợ tương tác người – máy tiếng nói sử dụng cơng nghệ xử lý ngơn ngữ tự nhiên tiếng Việt ứng dụng cho bảng thông tin điện tử công cộng Viện Đại học Mở Hà Nội PHẦN III: KẾT LUẬN & KIẾN NGHỊ III.1 Kết luận Đề tài thực nghiên cứu cơng nghệ nhận dạng tiếng nói với quy trình tổng thể bước trình xử lý nhận dạng tiếng nói, đề cập đến hai mơ hình q trình mơ hình âm mơ hình ngơn ngữ Đối với tiếng Việt, đề tài nghiên cứu số đặc trưng, đặc điểm tiếng nói tiếng Việt có ảnh hưởng đến, tác động đến kết qủa nhận dạng Với tảng đám mây dịch vụ cung cấp cho nhà phát triển thứ ba dạng dịch vụ chạy điện toán đám mây, đề tài nghiên cứu phương pháp cung cấp dịch vụ phần mềm điện toán đám mây Trong đó, đặc biệt nhấn mạnh đến dịch vụ nhận dạng tiếng nói số nhà cung cấp Microsoft, IBM cụ thể với Google Dịch vụ nhận dạng tiếng nói Google cung cấp hoàn thiện với độ xác cao, thuận tiện phát triển ứng dụng đa dạng phát triển ứng dụng Hơn nữa, dịch vụ hỗ trợ tiếng Việt sớm, tảng khác chưa hỗ trợ tiếng Việt Trên sở nghiên cứu, đề tài thiết kế xây dựng công cụ nhận dạng tiếng nói tiếng Việt dựa dịch vụ điện tốn đám mây Cơng cụ chạy độc lập với ứng dụng khác, tạo thuận lợi cho việc liên thông liệu kết nhận dạng đến trình xử lý ứng dụng Đề tài phát triển công cụ ứng dụng vào hai phạm vi khác nhau, thứ phục vụ cho tương tác bảng tin điện tử công cộng cho kết thử nghiệm khả quan, thứ hai phục vụ nhập điểm giọng nói cho kết tốt đáng kể so với nhập tay theo cách truyền thống Phần ứng dụng nhập điểm giọng nói ứng dụng vào thực tiễn tính đơn giản hiệu Tuy nhiên, độ xác nhận dạng chưa thể đạt mức độ cao nên có lúc nhận dạng không thành công bị sai so với lời nói người dùng Điều phương pháp nhận dạng dựa học máy nên người dùng lần đầu ứng dụng có sai lỗi tương đối nhiều, song dùng hệ thống nhận dạng cho kết xác cao Hơn nữa, hệ thống phụ thuộc vào yếu tố môi trường tương tác thiết bị thu âm micrô Nếu môi trường tốt, tức có nhiễu âm thu rõ việc nhận dạng có độ xác cao Ngược lại, mơi trường có nhiễu lớn khả nhận dạng khơng đạt mong muốn Trong ứng dụng bảng tin điện tử nơi công cộng, để đạt kết cao phải có thiết bị thu âm đủ tốt để loại bỏ bớt nhiễu định hướng thu âm người dùng Đề tài Khoa học công nghệ cấp Trường, mã số: V2018-17 76 Phát triển công cụ hỗ trợ tương tác người – máy tiếng nói sử dụng cơng nghệ xử lý ngơn ngữ tự nhiên tiếng Việt ứng dụng cho bảng thông tin điện tử công cộng Viện Đại học Mở Hà Nội họ phát âm Đề tài chưa thể trang bị thiết bị thu âm ngồi mơi trường đủ tốt nên vẫn thử nghiệm phần ứng dụng bảng tin phòng Đây hạn chế mặt thử nghiệm đề tài phần III.2 Kiến nghị Từ kết nghiên cứu đạt trên, đề tài đề xuất số vấn đề sau: - Cho phép triển khai rộng rãi công cụ nhận dạng tiếng nói ứng dụng nhập điểm thi trình quản lý đào tạo - Để triển khai ứng dụng rộng rãi, cần phải thực thủ tục mua quyền sử dụng dịch GSA nhằm đảm bảo độ ổn định, xác cao Vì sử dụng dạng tài khoản thử nghiệm nên có hạn chế định - Lựa chọn đầu tư thiết bị thu âm đủ tốt môi trường công cộng bảng tin điện tử để lắp đặt ứng dụng phần tương tác giọng nói hiệu chất lượng - Tiếp tục nghiên cứu phát triển công cụ nhận dạng tiếng nói nhằm tích hợp vào phần mềm quản lý học tập LMS hệ thống E-Learning phục vụ q trình học tập, tương tác máy tính người học cách thuận lợi, dễ dàng theo hướng đại - Nghiên cứu công nghệ nhận dạng hình ảnh kết hợp tiếng nói để ứng dụng vào đào tạo E-Learning ứng dụng thực tiễn khác đem lại hiệu cao hoạt động công tác Nhà trường Đề tài Khoa học công nghệ cấp Trường, mã số: V2018-17 77 Phát triển công cụ hỗ trợ tương tác người – máy tiếng nói sử dụng cơng nghệ xử lý ngơn ngữ tự nhiên tiếng Việt ứng dụng cho bảng thông tin điện tử công cộng Viện Đại học Mở Hà Nội TÀI LIỆU THAM KHẢO Tiếng Việt [Gia-V1] Nguyễn Văn Giáp, Trần Việt Hồng, KỸ THUẬT NHẬN DẠNG TIẾNG NÓI và ỨNG DỤNG TRONG ĐIỀU KHIỂN, Đại học Bách Khoa TP HCM, 2006 [Quy-V2] Thái Duy Quý, NHẬN DẠNG TIẾNG NÓI CHỮ SỐ VIỆT ÁP DỤNG TRONG HỆ THỐNG NHẬP ĐIỂM, TẠP CHÍ KHOA HỌC - ĐẠI HỌC ĐỒNG NAI, SỚ 04, pp 144-153, 2017 [Qui-V3] Nguyễn Cao Q, ỨNG DỤNG MÔ HÌNH MARKOV ẨN ĐỂ NHẬN DẠNG TIẾNG NÓI TRÊN FPGA, Tạp chí Khoa học Trường Đại học Cần Thơ, Phần A: Khoa học Tự nhiên, Công nghệ và Môi trường: số 25, pp 1-7, 2013 [Min-V4] Đỗ Văn Minh, Nguyễn Minh Sơn, Phan Thiện Phước, PHƯƠNG PHÁP ĐIỀU KHIỂN THIẾT BỊ BẰNG TIẾNG NÓI, Kỷ yếu Hội nghị Quốc gia lần thứ VIII Nghiên cứu và ứng dụng Công nghệ thông tin (FAIR), Hà Nội, ngày 910/7/2015 [Tha-V5] Nguyễn Thị Thanh, Nguyễn Hồng Quang, Trịnh Văn Loan, Phạm Ngọc Hưng, NHẬN DẠNG TIẾNG VIỆT NÓI SỬ DỤNG BỘ CÔNG CỤ KALDI, Tạp chí KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG, Số - (CS.01), 2016 Tiếng Anh [Sha-A1] Shaikh Naziya S and R.R Deshmukh, Speech Recognition System – A Review, IOSR Journal of Computer Engineering (IOSR-JCE), Vol 18, Iss 4, pp 01-09, 2016 [Hua-A2] Xuedong Huang and Li Deng, An Overview of Modern Speech Recognition, Microsoft Corporation, Handbook of Natural Language Processing, pp 339-363, 2009 [Gan-A3] Ganga Banavath and Sreedhar Potla, Speech Database for Speech Analysis, International Journal of Computer Science and Information Technologies, Vol (6), pp 6907-6910, 2014 [Quo-A4] Quoc Bao Nguyen, Tat Thang Vu, Chi Mai Luong, The Effect of Tone Modeling in Vietnamese LVCSR System, Procedia Computer Science 81 (2016) 174 – 181, 2016 [Vet-17] Veton Këpuska, Comparing Speech Recognition Systems (Microsoft API, Google API And CMU Sphinx), Int Journal of Engineering Research and Application (www.ijera.com), ISSN: 2248-9622, Vol 7, Issue 3, (Part -2), March 2017, pp 20-24 [Lui-17] Luisa Santo, Speech to Text Software Evaluation Report, CERN, 13rd July 2017 [Gof-05], The AT&T WATSON Speech Recognizer, ICASSP 2005, pp.1033-1036, 2005 [Mag-15], Magnus Stenman, Automatic speech recognition: An evaluation of Google Speech, UMEA University, 2015 [Pet-15], Petar Aleksic, Mohammadreza Ghodsi at al., Bringing Contextual Information to Google Speech Recognition, Google Inc., 2015 Đề tài Khoa học công nghệ cấp Trường, mã số: V2018-17 78 Phát triển công cụ hỗ trợ tương tác người – máy tiếng nói sử dụng cơng nghệ xử lý ngơn ngữ tự nhiên tiếng Việt ứng dụng cho bảng thông tin điện tử công cộng Viện Đại học Mở Hà Nội [Vet-17], Comparing Speech Recognition Systems (Microsoft API, Google API And CMU Sphinx), Veton Këpuska Int Journal of Engineering Research and Application, vol 7, Iss 3, pp.20-24, (Part -2) March 2017 Đề tài Khoa học công nghệ cấp Trường, mã số: V2018-17 79 ... 33 Phát triển công cụ hỗ trợ tương tác người – máy tiếng nói sử dụng cơng nghệ xử lý ngôn ngữ tự nhiên tiếng Việt ứng dụng cho bảng thông tin điện tử công cộng Viện Đại học Mở Hà Nội ứng dụng cho. .. số: V2018- 17 34 Phát triển công cụ hỗ trợ tương tác người – máy tiếng nói sử dụng công nghệ xử lý ngôn ngữ tự nhiên tiếng Việt ứng dụng cho bảng thông tin điện tử công cộng Viện Đại học Mở Hà Nội. .. số: V2018- 17 38 Phát triển công cụ hỗ trợ tương tác người – máy tiếng nói sử dụng công nghệ xử lý ngôn ngữ tự nhiên tiếng Việt ứng dụng cho bảng thông tin điện tử công cộng Viện Đại học Mở Hà Nội

Định dạng
Số trang	79
Dung lượng	3,4 MB