Nghiên cứu ứng dụng kỹ thuật phân tích tiếng nói trong đánh giá độ hài lòng của khách hàng vnpt thanh hóa

i LỜI CAM ĐOAN Em xin cam đoan số liệu kết nghiên cứu luận văn trung thực chưa sử dụng để bảo vệ học vị Luận văn hồn thành sau thời gian nghiên cứu, tìm hiểu nguồn tài liệu, sách báo chuyên ngành thơng tin mạng hồn tồn tin cậy Nội dung luận văn tổng hợp lại từ tài liệu tham khảo, khơng chép tồn đồ án cơng trình nghiên cứu tác giả khác, thơng tin trích dẫn luận văn rõ nguồn gốc rõ ràng phép công bố Em xin chịu trách nhiệm nội dung luận văn Thanh Hóa, 09 tháng 10 năm 2019 Học viên Nguyễn Anh Chiến ii LỜI CẢM ƠN Trước hết, em xin gửi lời cảm ơn sâu sắc đến TS.Trần Quang Diệu, người giúp đỡ em nhiều kiến thức tài liệu kỹ thuật phục vụ cho công tác nghiên cứu Em xin chân thành cảm ơn thầy, cô giảng viên giảng dạy Khoa CNTT-Truyền thông, Đại học Hồng Đức Thanh Hóa tạo điều kiện giúp đỡ em hoàn thành đề tài tốt nghiệp, cảm ơn tất bạn bè nhiệt tình giúp đỡ, động viên góp ý cho luận văn, đề tài Mặc dù nỗ lực cố gắng để hoàn thành luận văn tốt nghiệp chắn tránh khỏi sai sót Vì vậy, em mong bảo thầy, cô để luận văn hồn thiện Thanh Hóa, 09 tháng 10 năm 2019 Học viên Nguyễn Anh Chiến iii MỤC LỤC MỞ ĐẦU Chƣơng CƠ SỞ LÝ LUẬN VỀ NHẬN DẠNG TIẾNG NÓI 1.1 Tổng quan tình hình nghiên cứu 1.1.1 Các nghiên cứu giới 1.1.2 Tình hình nghiên cứu Việt Nam 1.1.3 Ứng dụng nhận dạng tiếng nói 1.2 Hệ thống nhận dạng tiếng nói 10 1.2.1 Kiến trúc tổng quan 10 1.2.2 Phân loại hệ thống nhận dạng tiếng nói 13 1.2.3 Các phương pháp nhận dạng tiếng nói 13 1.3 Tổng quan âm tiếng nói 19 1.3.1 Khái niệm âm 19 1.3.2 Tiếng nói 20 1.4 Khái quát tiếng Việt 21 1.4.1 Đặc điểm tiếng Việt 21 1.4.2 Ngữ âm tiếng Việt 21 1.5 Đơn vị cho hệ thống nhận dạng tiếng Việt 22 1.5.1 Từ âm tiết 22 1.5.2 Âm vị 22 1.5.3 Âm đầu vần 23 1.6 Thuận lợi khó khăn nhận dạng tiếng Việt 24 1.6.1 Thuân lợi 24 1.6.2 Khó khăn 24 Chƣơng KỸ THUẬT NHẬN DẠNG TIẾNG NÓI 26 2.1 Tiền xử lý tín hiệu tiếng nói 26 2.1.1 Giới thiệu 26 2.1.2 Khử nhiễu 26 2.1.3 Tiền khuếch đại (Pre-emphasis) 27 2.1.4 Xác định liệu tiếng nói 28 iv 2.1.5 Phân khung 34 2.1.6 Lấy cửa sổ 35 2.2 Trích rút đặc trưng tiếng nói 37 2.2.1 Giới thiệu 37 2.2.2 Phương pháp trích đặc trưng MFCC 38 2.2.3 Phương pháp mã dự đốn tuyến tính LPC 43 2.2.4 Lượng tử hóa vector 47 2.3 Các thuật tốn mơ hình nhận dạng tiếng nói 53 2.3.1 Mơ hình Markov ẩn 53 2.3.2 Mơ hình mạng nơron 56 2.3.3 Mơ hình End-to-end 60 2.4 Đánh giá thuật toán 63 2.4.1 So sánh thuật toán 63 2.4.2 Lựa chọn thuật toán cài đặt thử nghiệm 64 CHƢƠNG THỬ NGHIỆM HỆ THỐNG NHẬN DẠNG TIẾNG NĨI 66 3.1 Mơ tả toán 66 3.1.1 Mô tả chung 66 3.1.2 Mô tả liệu thử nghiệm 67 3.1.3 Mô tả cơng cụ chương trình 69 3.2 Kết thử nghiệm đánh giá 73 3.2.1 Về ứng dụng hệ thống 73 3.2.2 Đánh giá kết 76 KẾT LUẬN VÀ KIẾN NGHỊ 78 Kết luận 78 Kiến nghị 79 TÀI LIỆU THAM KHẢO 79 v DANH MỤC TỪ VIẾT TẮT Viết tắt Tiếng Anh ASR Automatic Speech Recognition ANN Artificial Neural Network API CMS CTC Application Programming Interface Cepstral Mean Subtraction Connectionist temporal classification Tiếng Việt Hệ thống nhận diện tiếng nói tự động Mạng nơron nhân tạo Giao diện lập trình ứng dụng Khử nhiễu trừ trung bình Phân loại tạm thời kết nối DFT Discrete Fourier Transform Biến đổi Fourier rời rạc DCT Discrete Cosin Transform Biến đổi Cosin rời rạc DTW Dynamic Time Warping Xoắn thời gian động DNN Deep feedforward Neural Network Mạng nơron sâu ESS Energy of Speech Signal Hàm lượng thời gian FFT Fast Fourier Transform Biến đổi Fourier nhanh GMM Gaussian Mixture Model Mơ hình hỗn hợp Gaus HMM Hidden Markov Model Mơ hình Markov ẩn IPCC IP Contact Center LVCSR LPC LPCC MFCC Trung tâm tương tác khách hàng Large Vocabulary Continuous Hệ thống nhận dạng tiếng nói Speech Recognition liên tục với từ vựng lớn Linear Predictive Coding Mã hóa dự đốn tuyến tính Linear prediction cepstral coefficient Hệ số phổ dự đoán tuyến tính Mel-Frequency Cepstral Các hệ số phổ theo thang tần số Coefficients mel vi Nơron Neural TTS Text-to-Speech PLP Perceptually Linear Predictive Dự đốn tuyến tính nhận thức PCA Principal Component Analysis Phân tích thành phần RASTA Relative Spectra Filtering of Log Domain Coefficients Tế bào thần kinh Chuyển văn thành giọng nói Hệ số khử nhiễu phổ tương đối RNN Recurrent Neural Network Mạng nơron hồi quy SNR Signal Noise Rate Tỉ lệ tín hiệu nhiễu SS Spectral-subtraction Khử nhiễu trừ phổ STT Speech-to-Text VAD Voice Activity Detectors ZCR Zero-Crossing Rate Chuyển giọng nói thành văn Các thăm dị hoạt động tiếng nói Tỉ lệ biến thiên qua trục khơng vii DANH MỤC HÌNH VẼ Hình 1.1: Hệ thống nhận dạng tiếng nói 10 Hình 1.2: Phân loại hệ thống nhận dạng tiếng nói 13 Hình 1.3: Phương pháp nhận dạng tiếng nói sử dụng âm học-ngữ âm 15 Hình 1.4: Hệ thống nhận dạng tiếng nói theo phương pháp mẫu 16 Hình 5: Hệ thống nhận dạng tiếng nói theo mơ hình Bottom up 18 Hình 2.1: Qua trình tiền xử lý tín hiệu tiếng nói 26 Hình 2.2: Xác định liệu tiếng nói sử dụng ZCR 29 Hình 3: Xác định liệu tiếng nói sử dụng ESS 31 Hình 2.4: Xác định liệu tiếng nói sử dụng Entropy phổ 33 Hình 2.5: Tín hiệu tiếng nói khoảng thời gian dài 34 Hình 2.6: Tín hiệu tiếng nói khoảng thời gian ngắn 34 Hình 2.7: Tín hiệu tiêng nói chia thành khung chồng lấn 35 Hình 2.8: Mơ hình sóng cửa sổ Hamming 36 Hình 2.9: Tín hiệu trước sau nhân với cửa sổ Hamming 37 Hình 2.10: Sơ đồ q trình trích trọn đặc trưng 38 Hình 2.11: Các bước trích chọn đặc trưng MFCC 39 Hình 2.12: Biểu đồ thang tần số Mel theo tần số thực 40 Hình 2.13: Băng lọc tam giác theo tần số Mel 40 Hình 2.14: Phổ biên độ gốc phổ sau băng lọc tam giác 41 Hình 2.15: Các bước trích chọn đặc trưng LPC 44 Hình 2.16: Sơ đồ kỹ thuật lượng tử hóa vector 48 Hình 2.17: Phân vùng không gian hai chiều thành 18 ô Tất 50 Hình 2.18: Mơ hình HMM-GMM dạng Left-Right N trạng thái 54 Hình 2.19: Q trình huấn luyện mơ hình HMM 55 Hình 2.20: Quá trình nhận dạng 56 Hình 2.21: Mơ hình mạng Nơron nhân tạo 57 Hình 2.22: Họat động Nơron 58 viii Hình 2.23: Chức Hàm chuyển đổi 59 Hình 2.24: Hệ thống nhận dạng tiếng nói sử dụng mơ hình ANN 60 Hình 2.25: Cấu trúc, chức Mơ hình end-to-end 61 Hình 3.1: Mơ hình Trung tâm IPCC 67 Hình 3.2: Dữ liệu ghi âm gọi hệ thống 68 Hình 3.3: Dữ liệu file ghi âm lấy từ hệ thống IPCC 69 Hình 3.4: Kiến trúc Serverless Processing Pipeline 70 Hình 3.5: Giao diện chương trinh 73 Hình 3.6: Kết với câu tiếng Anh ngắn 73 Hình 3.7: Kết với câu tiếng Việt ngắn 74 Hình 3.8: Kết với File tiếng Việt có số lượng từ lớn, nói chậm 74 Hình 3.9: Kết với File tiếng Việt có số lượng từ lớn, nói nhanh 75 Hình 3.10: Kết với File tiếng Việt có số từ lớn, nói nhanh 76 ix DANH MỤC BẢNG BIỂU Bảng 1.1: Cấu trúc âm tiết tiếng Việt 21 Bảng 1.2: Vốn từ trung bình ứng dụng 22 Bảng 2.1: Đặc điểm kỹ thuật MFCC 43 Bảng 2.2: Những đặc điểm phương pháp trích chọn LPC 47 MỞ ĐẦU Lý chọn đề tài Nhận dạng tiếng nói tự động kỹ thuật nhằm làm cho máy “hiểu” tiếng nói người Đối với người, nghe, hiểu tiếng mẹ đẻ vấn đề đơn giản máy tính việc xác định chuỗi tín hiệu âm phát âm từ không đơn giản gặp nhiều khó khăn Trên giới, qúa trình nghiên cứu xây dựng hệ thống nhận dạng tiếng nói năm 1936 đến có nhiều hệ thống nhận dạng tiếng nói ứng dụng trong lĩnh vực viễn thơng, giải trí, y tế, giao thơng, mạng lại nhiều lợi ích thuận tiện cho sống người Như vậy, ta thấy nhận dạng tiếng nói lĩnh vực nghiên cứu quan trọng để phát triển đưa ứng dụng tự động vào nhiều ngành Ngồi yếu tố cơng nghệ nhận dạng tiếng nói, tiếng nói dân tộc có đặc thù riêng, địi hỏi việc phân tích tìm cơng nghệ phù hợp Đối với tiếng Việt, ngôn ngữ dựa âm tiết, cách phát âm thay đổi nhiều theo vị trí địa lí, hệ thống ngữ pháp ngữ nghĩa phức tạp, việc nghiên cứu phát triển hệ thống nhận dạng tiếng nói vấn đề khó khăn Hiện đề tài nghiên cứu, xây dựng hệ thống nhận dạng tiếng Việt dựa nhiều vào kỹ thuật nhận dạng mẫu với số lượng từ vựng khơng liên tục với xu phát triển cơng nghệ yêu cầu người dùng việc nghiên cứu, phát triển hệ thống nhận dạng tiếng Viêt với số lượng từ vựng lớn, liên tục, tức thời tất yếu Với lí đó, em chọn đề tài “Nghiên cứu ứng dụng kỹ thuật phân tích tiếng nói đánh giá độ hài lòng khách hàng VNPT Thanh Hóa” để tìm hiểu, nghiên cứu kỹ thuật nhận dạng tiếng nói nói chung, tiếng Việt nói riêng thử nghiệm xây dựng hệ thống nhận dạng cỡ nhỏ 69 Hình 3.3: Dữ liệu file ghi âm lấy từ hệ thống IPCC 3.1.3 Mô tả công cụ chương trình Nghiên cứu Google nhận dạng giọng nói vào năm 2007 gọi GOOG-441 Đó cơng cụ tìm doanh nghiệp hỗ trợ lời nói thành phố tiểu bang người dùng, theo sau tên doanh nghiệp danh mục doanh nghiệp Hệ thống cố gắng nhận truy vấn, kiểm tra mục nhập công cụ tìm kiếm doanh nghiệp dựa web Google Maps trả danh sách doanh nghiệp Dựa mức độ trùng khớp truy vấn, đến tám kết đọc lại cho người dùng, sử dụng tính chuyển văn thành giọng nói (TTS) Sau đó, người dùng có tùy chọn kết nối với dịch vụ yêu cầu SMS với thông tin doanh nghiệp.[26] Hệ thống nhận dạng giọng nói Google độc lập với người nói xây dựng mạng thần kinh sâu với mơ hình Markov ẩn (DNN-HMM) Sức mạnh Google Speech nằm mục đích sử dụng chung, thực u cầu tìm kiếm web tồn giới, Google sử dụng điện toán đám mây Google Cloud cho tác vụ nhận dạng giọng nói [26] 70 Hình 3.4 mơ tả kiến trúc luồng xử lý không sever (Serverless Processing Pipeline) chuyển đổi file âm (tiếng nói) sang văn sử dụng tảng Google Cloud [26] Hình 3.4: Kiến trúc Serverless Processing Pipeline Kiến trúc Pipeline gồm thành phần Google Cloud Storage, Google Cloud Functions Google Cloud Speech API có chức năng: Google Cloud Storage dịch vụ web lưu trữ tệp trực tuyến RESTful để lưu trữ truy cập liệu sở hạ tầng Google Cloud Platform (GCP) Dịch vụ kết hợp hiệu suất khả mở rộng Google Cloud với khả chia sẻ bảo mật nâng cao Đây sở hạ tầng dịch vụ (IaaS), tương đương với dịch vụ lưu trữ trực tuyến Amazon S3 Google Cloud Functions môi trường thực thi khơng có máy chủ để xây dựng kết nối dịch vụ đám mây Với Cloud Functions, viết hàm đơn giản, đơn mục đích đính kèm với kiện phát triển từ sở hạ tầng dịch vụ đám mây bạn Hàm bạn kích hoạt kiện theo dõi kích hoạt Mã bạn thực thi môi trường quản lý đầy đủ Không cần phải cung cấp sở hạ tầng lo lắng việc quản lý máy chủ.[26] 71 Google Cloud Speech API API có chức chuyển đổi tiếng nói sang văn (STT), nhận dạng 120 ngơn ngữ Nó xử lý âm phát trực tuyến âm theo thời gian thực, sử dụng công nghệ học máy Google Có loại API requests xử lý file audio Synchronous Request file audio có nội dung dài xấp xỉ phút người dùng khơng phải tải liệu lên Google cloud Điều cung cấp linh hoạt cho người dùng lưu trữ tệp âm máy tính máy chủ cục họ tham chiếu API để lấy văn Đối với loại Asynchronous Request xử lý file audio dài xấp xỉ 480 phút (8 giờ) người dùng phải tải lên Google clound Đối với loại Streaming Request xử liệu người dùng nói chuyện trực tiếp với micrơ cần chuyển đổi Dữ liệu phát trực tuyến nên có khoảng phút cho loại yêu cầu này.[26] Qúa trình thực chuyển đổi từ file audio sang text hình 3.4 gồm bước: Bước 1: Tải file audio muốn chuyển đổi lên Cloud Storage bucket Bước 2: Sẽ có thơng báo kích hoạt kiện từ Cloud Storage (trigger event) đến Cloud Function Bước 3: Cloud Function đọc file audio tải lên, xây dựng cấu trúc đưa lệnh gọi API đến API Cloud Speech, tham chiếu file Cloud Storage bucket Bước 4: Sau xử lý xong, API Cloud Speech trả file văn cho Cloud Function Bước 5: Cloud Function sau ghi tệp văn vào Cloud Storage bucket khác Chương trình viết ngơn ngữ PHP, trình cài đặt chương trình gồm : 72 Bước 1: Cài đặt XAMP chương trình tạo máy chủ Web (Web Server) tích hợp sẵn Apache, PHP, MySQL, FTP Server, Mail Server công cụ phpMyAdmin Bước 2: Copy thư mục speech chứa thư viện PHP Google Cloud vào thư mục htdocs XAMP Bước 3: Cài Composer để dowload thư viện internet Composer Dependency Management PHP, công cụ quản lý thư viện mà project sử dụng, cần khai báo nó, composer tự động tải code thư viện, tạo file cần thiết vào project, update thư viện cần Composer chất cách để đưa tất thư viện, class, file bên thứ CSS frameworks, jQuery plugins thứ khác vào project Bước 4: Tải thư viện file composer.json thư mục hành qua giao diện cmd thư mục C:\xampp\htdocs\speech Bước 5: Tạo biến môi trường để gọi API Google Bước 6: Cài đặt chương trình: Vào thư mục speech, mở file composer.json thêm vào đoạn sau : "bluemoehre/flac-php": "1.0.2", "wapmorgan/media-file": "^0.1.4", "wapmorgan/mp3info": "~0.0", "wapmorgan/binary-stream": "~0.4.0", "wapmorgan/file-type-detector": "^1.0.2", "boyhagemann/wave": "dev-master" Bước 6: Khởi động XAMPP, vào chương trình qua đường dẫn luanvan.local Chương trình có form hình hoạt động cách lựa chọn file ghi âm lưu giữ máy tính người kiểm tra, chương 73 trình tự động chuyển thành dạng văn Người sử dụng vào nội dung văn để đánh giá Hình 3.5: Giao diện chương trinh 3.2 Kết thử nghiệm đánh giá 3.2.1 Về ứng dụng hệ thống Thử nghiệm với file ghi âm tiếng Anh ngắn “ Where is the bus stop”, kết trả xác 100% Hình 3.6: Kết với câu tiếng Anh ngắn 74 Thử nghiệm với file ghi âm tiếng Việt 12 từ “ Xin chào bạn Chiến đến từ Đài chăm sóc khách hàng VNPT Thanh Hóa”, kết trả xác 100% Hình 3.7: Kết với câu tiếng Việt ngắn Thử nghiệm với kết file ghi âm tiếng Việt 31 từ “Chào bác Cháu nhân viên chăm sóc khách hàng VNPT Thanh Hóa nhà sửa chữa đường dây th bao Bắc có cảm thấy hài lịng khơng có”, kết trả gần xác, sai từ (“vừa” thành “và”), tỉ lệ xác 96,7% Hình 3.8: Kết với File tiếng Việt có số lượng từ lớn, nói chậm 75 Thử nghiệm với kết file ghi âm tiếng Việt 32 từ “Chào bác nhà bác có phải Nguyễn Văn Hải khơng có phải Bác vừa lắp đặt dịch vụ khơng Bác sử dụng dịch vụ có hài lịng khơng Tơi hài lịng”, kết trả xác, sai thiếu từ, tỉ lệ xác 85% Hình 3.9: Kết với File tiếng Việt có số lượng từ lớn, nói nhanh Thử nghiệm với file ghi âm gần 90 từ, có độ dài 35s, nhân viên chăm sóc khách hàng nói nhanh, khó nghe, nhiên chương trình chuyển đổi thành cơng, có số từ không nghe rõ không chuyển sang text, ý nghĩa đoạn hội thoại giữ nguyên, người đọc hiểu 76 Hình 3.10: Kết với File tiếng Việt có số từ lớn, nói nhanh Từ kết chương trình chuyển đổi giọng nói thành văn bản, ta xây dựng cơng cơng cụ tìm kiếm xâu kí tự cách sử dụng thuật tốn tìm kiếm xâu ký tự Brute Force, thuật toán Knuth - Morris- Pratt, thuật toán DFA (Deterministic Finite Automaton), thuật toán Karp Rabin, để thống kê , phân tích lời nói cho phép tìm mẫu câu đặc biệt từ ngữ lặp lại lời nói khách hàng suốt hội thoại, ví dụ từ “muốn” , “thích”, “khơng thích” hay “bị hỏng” hay tên đối thủ cạnh tranh, để từ tìm xu hướng phản ứng khác hàng, xác định tình bộc lộ cảm xúc mạnh, nhằm cung cấp khả hiển thị hành vi mức độ thỏa mãn khách hàng, hiệu suất làm việc điện thoại viên, mức độ hiệu chiến dịch bàn hàng marketing 3.2.2 Đánh giá kết Qua trình thử nghiệm chương trình, API hệ thống nhận dạng Google Speech tối ưu thơng minh Trong q trình nhận dạng, chuyển đổi tiếng nói có nhiều lúc khó nghe, lúc to lúc nhỏ, ngắt quãng, 77 lúc nhanh,lúc chậm… kết trả chưa hẳn sai hồn tồn nhận biết từ cịn thiếu gợi ý từ từ từ thay Đối với file ghi âm tiếng Anh, chương trình chuyển đổi xác hồn tồn, file tiếng Việt có độ xác trung bình đến 92% Với kết vậy, việc áp dụng vào thực tế khả thi Chương mơ tả tốn xử lý liệu ghi âm Trung tâm Contac Center VNPT Thanh Hóa với yêu cầu đặt cao Và để đáp ứng yêu cầu đó, thời điểm có hệ thống nhận dạng sử dụng công nghệ học sâu giải vấn đề Việc sử dụng cơng nghệ nhận dang tiếng nói Google Cloud Speech API giúp cho toán đơn giản, tiết kiệm thời gian, công sức kết đạt vô khả quan 78 KẾT LUẬN VÀ KIẾN NGHỊ Kết luận Luận văn tốt nghiệp “Nghiên cứu ứng dụng kỹ thuật phân tích tiếng nói đánh giá độ hài lịng khách hàng VNPT Thanh Hóa" hoàn thành Luận văn nghiên cứu tổng quan nhận dạng tiếng nói gồm lịch sử trình nghiên cứu, phương pháp nhận dạng tiếng nói, đặc tính âm ngơn ngữ tiếng Việt, bước xử lý tiếng nói, kỹ thuật phân tích trích chọn đặc trưng tiếng nói mơ hình nhận dạng tiếng nói nay, từ xây dựng chương trình chuyển đổi tiếng nói từ file ghi âm thành văn bản, nhiên thời gian, trình độ nguồn lực chưa đáp ứng kịp thời nên luận văn số hạn chế Cụ thể: Kết đạt được: Tìm hiểu lịch sử nghiên cứu, ứng dụng nhận dạng tiếng nói Tổng quan hệ thống, phương pháp nhận dạng tiếng nói Nghiên cứu âm thanh, tiếng nói, ngữ âm tiếng Việt Nghiên cứu kỹ thuật nhận dạng tiếng nói, từ q trình xử lý tín hiệu đến phương pháp trích rút đặc trưng MFCC, LPC, q trình lượng tử hóa đến mơ hình, thuật tốn nhận dạng tiếng nói HMM, Nơ ron, End-to-End Giải tốn nhận dạng chuyển đổi tiếng nói sang văn với file ghi âm phút Google Cloud Speech-to-Text Bước đầu hệ thống vào hoạt động, kết nhận dạng tốt, có độ xác trung bình 92 % Hạn chế: Chưa áp dụng mơ hình để xây dựng chương trình nhận dạng tiếng Việt, phải sử dụng công nghệ Cloud Google 79 Hệ thống xây dựng chưa xử lý file có độ dài lớn phút xử lý tiếng nói thời gian thực (nói trực tiếp) chưa đánh giá tự động độ hài lòng Kiến nghị Mặc dù hồn thành việc áp dụng, tích hợp cơng cụ có sẵn để xây dựng thành cơng hệ thống nhận dạng chuyển đổi tiếng nói tiếng Việt sang văn nhờ tích hợp cơng nghệ điện tốn đám mây Google Trong thời gian tới, em tiếp tục thực việc nghiên cứu để hoàn thiện chương trình với việc từ file ghi âm có thời gian khách theo gian thực (real time) đánh giá tự động thái độ khách hàng với dịch vụ thái độ nhân viên chăm sóc khách hàng 80 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Mai Ngọc Chừ, Vũ Đức Nghệu, Hồng Trọng Phiến (2000), Cơ sở ngơn ngữ học Tiếng Việt, Nhà xuất Giáo dục [2] Đặng Ngọc Đức, Nguyễn Tiến Dũng, Lương Chi Mai (2011), Mơ hình phiên âm tiếng Việt mức âm vị, Institute of Information Technology, Vietnamese Academy of Science and Technology [3] Cao Xuân Hạo (1998), Tiếng Việt - vấn đề ngữ âm, ngữ pháp, ngữ nghĩa, NXB Giáo dục [4] Nguyễn Văn Huy (2016), Nghiên cứu mơ hình điệu nhận dạng tiếng Việt từ vựng lớn phát âm liên tục, Luận án Tiến sĩ Toán học [5] Bạch Hưng Khang (2004), Ngiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng Việt , Đề tài nghiên cứu cấp nhà nước tổng hợp nhận dạng tiếng Việt [6] Nguyễn Thành Phúc (2010), Một phương pháp nhận dạng lời Việt: Áp dụng phương pháp kết hợp mạng nơ-ron với mơ hình Markov ẩn cho hệ thống nhận dạng lời Việt, Luận án Tiến sĩ Kỹ thuật, Thư viện trường ĐHBK Hà Nội [7] Thái Duy Quý (2017), Nhận dạng tiếng nói chữ số việt áp dụng hệ thống nhập điểm, Tạp chí khoa học-Đại học Đồng Nai Tiếng Anh [8] B.H.Juang, Lawrence R.Rabiner (2004), Automatic Speech Recognition -A Brief History of the Technology, Georgia Institute of Technology, Atlanta Rutgers University and the University of California, Santa Barbara [9] D Anggraeni, W S MSanjaya, M Y S Nurasyidiek and M Munawwaroh (2018), The Implementation of Speech Recognition using Mel-Frequency Cepstrum Coefficients (MFCC) and Support Vector Machine (SVM) method based on Python to Control Robot Arm, The 2nd Annual Applied Science and 81 Engineering Conference (AASEC 2017), IOP Conf Series: Materials Science and Engineering 288 (2018) [10] Dr Vilas Thakare, Techniques for Feature Extraction in Speech Recoginition System: A Comparative Study, Professor & Head, PG Dept of Computer Science, SGB Amravati University, Amravati [11] Dong Wang , Xiaodong Wang and Shaohe Lv, An Overview of End-to- End Automatic Speech Recognition, Science and Technology on Parallel and Distributed Processing Laboratory, National University of Defense Technology, Changsha 410073, China [12] J Petry, PhD Thesis, Connectionnisst Vector Quantization in Au tomatic Speech Reconigition, Katholieke Universiteit Leuven, ISBN 90-5682161-X [13] Kevin Gurney, An introduction to neural networks, University of Sheffield [14] Ngoc Thang Vu, Tanja Schultz, Vietnamese Large Vocabulary Continuous Speech Recognition, Cognitive Systems Lab (CSL), Institute for Anthropomatics, University of Karlsruhe [15] Rabiner L.R, Huang B.H (1993), Fundamentals of speech recognition, NXB Prentice Hall [16] R Rabiner (1998), A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition, Proceedings of IEEE, vol 77, no 2, 1998 [17] Shreya Narang, Ms Divya Gupta (2015), Speech Feature Extraction Techniques: A Review, International Journal of Computer Science and Mobile Computing, Vol.4 Issue.3, March- 2015, pg 107-114 [18] S Furui, 50 years of progress in speech and speaker recognition [19] SAYF A MAJEED, HAFIZAH HUSAIN, ALINA ABDUL SAMAD, TARIQ F IDBEAA (2015), Mel Frequency Cepstral Coefficients features extraction enhancement in the application of speech reconigition: A Comparison Study, Signal Processing Lab, Department of Electrical, 82 Electronic and System Engineering, Universiti Kebangsaan Malaysia, 43600 UKM, Bangi, Selangor, Malaysia, Journal of Theoretical and Applied Information Technology, 10th September 2015 Vol.79 No.1 [20] Varsha Singh, Vinay Kumar Jain, Dr Neeta Tripathi (2014), A Comparative Study on Feature Extraction Techniques for Language Identification, Department of Electronics & Telecommunication, CSVTU University, International Journal of Engineering Research and General Science Volume 2, Issue 3, April-May 2014, ISSN 2091-2730 [21] Vibha Tiwari, MFCC and its applications in speaker recognition, Deptt of Electronics Engg., Gyan Ganga Institute of Technology and Management, Bhopal, (MP) INDIA, International Journal on Emerging Technologies 1(1): 19-22(2010), ISSN : 0975-8364 [22] W.S Mada Sanjaya, Dyah Anggraeni and Ikhsan Purnama Santika (2018), Speech Recognition using Linear Predictive Coding (LPC) and Adaptive Neuro-Fuzzy (ANFIS) to Control DoF Arm Robot, International Conference on Computation in Science and Engineering, IOP Conf Series: Journal of Physics: Conf Series 1090 (2018) 012046 [23] Yakubu A Ibrahim, Juliet C Odiketa , Tunji S Ibiyemi (2017), Preprocessing Technique in Automatic Speech Recognition for Human Computer Interaction: An Overview, Anale Seria Informatică Vol XV fasc 1-2017 [24] Zhang Yuxin*, Ding Yan (2014), A voice activity detection algorithm based on spectral entropy analysis of sub-frequency band, School of Computer Science and Technology, Changchun University of Science and Technology, Changchun 130022 Trang Web [25] A Geitgey, “Machine Learning is Fun Part 6: How to Speech Recognition with Deep Learning,” 24/11/2016 Trực tuyến Available: https://medium.com/@ageitgey/machine-learning-is-fun-part-6-how-to-do- 83 speech-recognition-with-deep-learning-28293c162f7a Đã truy cập 08/08/2019] [26] Wikipedia, "Speech recognition," 07/08/2019 [Online] Available: https://vi.wikipedia.org/wiki/Google_Cloud_Platform [Aceed at 08/08/2019] [27] VNPT-Technology, “Dịch vụ IP Contac Center” 26/11/2015 Trực tuyến Available: http://vnpt-technology.vn/ViewDetailContentAction Đã truy cập 01/10/2019] [28] Wikipedia, "Speech recognition," 07/08/2019 [Online] Available: https://en.wikipedia.org/wiki/Speech_recognition [Aceed at 08/08/2019]

Định dạng
Số trang	92
Dung lượng	2,46 MB