Nghiên cứu xây dựng hệ thống voice server và ứng dụng cho các dịch vụ trả lời tự động qua điện thoại

ỦY BAN NHÂN DÂN TP HCM SỞ KHOA HỌC VÀ CƠNG NGHỆ TRƢỜNG ĐH KHTN TP HCM PTN TRÍ TUỆ NHÂN TẠO  BÁO CÁO NGHIỆM THU NGHIÊN CỨU, XÂY DỰNG HỆ THỐNG VOICE SERVER & ỨNG DỤNG CHO CÁC DỊCH VỤ TRẢ LỜI TỰ ĐỘNG QUA ĐIỆN THOẠI PGS.TS VŨ HẢI QUÂN TS LÊ QUỐC CƢỜNG Thành phố Hồ Chí Minh Tháng /2012 ỦY BAN NHÂN DÂN TP HCM SỞ KHOA HỌC VÀ CÔNG NGHỆ  BÁO CÁO NGHIỆM THU (Đã chỉnh sửa theo góp ý Hội đồng nghiệm thu) NGHIÊN CỨU, XÂY DỰNG HỆ THỐNG VOICE SERVER & ỨNG DỤNG CHO CÁC DỊCH VỤ TRẢ LỜI TỰ ĐỘNG QUA ĐIỆN THOẠI CHỦ NHIỆM ĐỀ TÀI (Ký tên) PGS.TS VŨ HẢI QUÂN CƠ QUAN QUẢN LÝ (Ký tên/đóng dấu xác nhận) TS LÊ QUỐC CƢỜNG CƠ QUAN CHỦ TRÌ (Ký tên/đóng dấu xác nhận) Thành phố Hồ Chí Minh Tháng /2012 Tóm tắt nội dung nghiên cứu Đề tài sâu nghiên cứu tìm hiểu xây dựng hệ thống Voice Server, ứng dụng hệ thống hỏi đáp thông tin qua mạng điện thoại (PSTN) Cụ thể hai công nghệ xử lý tiếng nói tổng hợp nhận dạng tiếng Việt môi trường điện thoại với từ vựng giới hạn nghiên cứu, hồn thiện Các cơng nghệ tích hợp hệ thống tổng đài để cung cấp dịch vụ thông tin tự động Các thành phần hệ thống gồm: - Mơ-đun tiền xử lý: thực nghiên cứu, xây dựng phát triển thuật toán xử lý nâng cao chất lượng tiếng nói thu/phát qua đường điện thoại - Mơ-đun giao tiếp mạng điện thoại: thực quản lý truyền dẫn tín hiệu điện thoại người gọi hệ thống qua mạng điện thoại (PSTN) Đồng thời thực truy vấn xử lý thông tin tùy theo kịch ứng dụng Voice Server cụ thể - Mô-đun nhận dạng tiếng nói tiếng Việt: thực chuyển đổi tín hiệu tiếng nói thu qua đường điện thoại thành dạng văn Mô đun xây dựng với từ vựng hạn chế, cho độ xác cao - Mơ-đun tổng hợp tiếng nói tiếng Việt: thực chuyển đổi thơng tin/văn thành tiếng nói tự nhiên phát qua hệ thống điện thoại, có chất lượng đọc tự nhiên, rõ ràng Hệ thống xây dựng đặt tên Tổng đài hỏi đáp thông tin tự động tiếng Việt (Viet Voice System - VIS) với độ xác cao tốc độ xử lý nhanh Phiên VIS VIS::DIR cung cấp dịch vụ tự động chuyển gọi, cho phép người dùng nói tên phịng, ban trường đại học sau hệ thống chuyển gọi tới phòng, ban tương ứng mà khơng phải tìm kiếm số điện thoại danh bạ chờ đợi tiếp tân nối máy Hệ thống VIS::DIR đạt độ xác 93.17% thực tế minh chứng cho tính thực tế đề tài thực tiễn ứng dụng Bản demo cho hệ thống VIS::DIR thử nghiệm thơng qua đầu số điện thoại: (08) 38 325 929 Summary of research content This report presents a complete specification of Voice Server and its integration into Interactive Voice Response (IVR) applications Due to the fact that there is no IVR application has integrated Vietnamese speech processing technology in Vietnam So we have proposed a new IVR architecture with Vietnamese Automatic Speech Recognition (ASR) and Vietnamese Text to Speech (TTS) integrated to develop a complete IVR system, called Vietnamese Voice Server (VIS) There are four main parts comprising VIS: - Pre-processing module: to enhance speech signal quality that received through Public Switched Telephone Network (PSTN) - Network Interface module: to manage telephone signal transmissions between users and IVR system over the PSTN network - Vietnamese Automatic Speech Recognition module: to deal with speech to text conversion The ASR module has a small vocabulary depend on domain of IVR application to achieve high accuracy - Vietnamese Text to Speech module: to deal with text to speech conversion so that output synthetic speech has fluent and naturalness The first version of VIS is VIS::DIR, providing automated call directory service for department/office inquiry with high accuracy and speedily processing Users just say the name of department/office to connect with the desired one without pressing any key or getting any help from receptionist The VIS::DIR has achieved 93.17% accuracy score, and its demo is available at: (08) 38 325 929 MỤC LỤC Tóm tắt nội dung nghiên cứu Summary of research content Danh mục hình ảnh 10 Danh mục bảng biểu 12 Danh mục từ viết tắt 13 Mở đầu 14 Chương Tổng quan đề tài 17 1.1 Dẫn nhập 17 1.2 Tình hình nghiên cứu giới 19 1.2.1 Ứng dụng tiếng nói (Voice Application) 20 1.2.2 Engine xử lý tiếng nói (Voice Server) 21 1.2.2.1 Bộ kết nối hệ thống điện thoại 22 1.2.2.2 Bộ nhận dạng tiếng nói 23 1.2.2.3 Bộ tổng hợp tiếng nói 24 1.2.2.4 Công cụ phát triển ứng dụng 25 1.3 Tình hình nghiên cứu nước 25 1.4 Nội dung đề tài 27 1.5 Các kết đạt đề tài 29 Chương 2: Hệ thống tổng đài hỏi đáp thông tin tự động tiếng Việt – Viet Voice Server (VIS) 31 2.1 Kiến trúc tổng quát 31 2.1.1 Bộ giao tiếp mạng điện thoại 32 2.1.1.1 Kiến trúc phần mềm Asterisk 33 2.1.1.2 Vai trò chức Asterisk hệ thống Voice Server 35 2.1.2 Mô-đun tiền xử lý 37 2.1.2.1 Nhiễu âm (Acoustic Noise) 37 2.1.2.2 Khử nhiễu (Noise Reduction) 38 2.1.2.2.1 Chia Frame (Enframing) 38 2.1.2.2.2 Biến đổi Fourier rời rạc (Discrete Fourier Transform - DFT) 40 2.1.2.2.3 Lấy mẫu nhiễu 41 2.1.2.2.4 Spectral Subtraction – Biến đổi nghịch DFT 42 2.1.2.2 Chuẩn hóa tập tin âm 42 2.1.2.2.1 Cấu trúc định dạng tập tin WAV 43 2.1.2.2.2 Phương pháp chuẩn hoá 47 2.1.3 Mơ-đun nhận dạng tiếng nói (Automatic Speech Recognition - ASR) 48 2.1.3.1 Trích chọn đặc trưng 49 2.1.3.2 Mơ hình ngữ âm 50 2.1.3.3 Mô hình ngơn ngữ 52 2.1.3.3 Đồ thị nhận dạng 52 2.1.4 Mơ-đun Tổng hợp tiếng nói (Text to Speech – TTS) 56 2.1.4.1 Huấn luyện 58 2.1.4.1.1 Xây dựng kho ngữ liệu 58 2.1.4.1.2 Phân đoạn 58 2.1.4.2 Tổng hợp 60 2.1.4.2.1 Xử lý văn 60 2.1.4.2.1 Tìm kiếm Unit Selection 63 2.1.5 Xử lý ngôn ngữ tự nhiên 64 2.1.5.1 Mô-đun xử lý ngôn ngữ 65 2.1.5.2 Mô-đun truy vấn thông tin 65 2.1.5.3 Hệ thống lưu trữ thông tin 65 2.1.5.4 Mô-đun thu thập thông tin 66 Chương Thực nghiệm đánh giá 67 3.1 3.1.1 Thực nghiệm đánh giá mô-đun Nhận dạng tiếng nói 67 Dữ liệu thực nghiệm 67 3.1.2 Độ đo đánh giá 68 3.1.3 Kết thực nghiệm 68 3.2 Thực nghiệm đánh giá mơ-đun Tổng hợp tiếng nói 70 3.2.1 Độ đo đánh giá 70 3.2.2 Kết đánh giá 72 3.2.3 Thực nghiệm đánh giá thời gian phản hồi hệ thống (real-time response) 73 3.2.4 Thực nghiệm đánh giá tính hữu ích tính tiện dụng 74 Chương Cài đặt hệ thống 77 4.1 Sơ đồ tổng quát 77 4.2 Mô-đun giao tiếp mạng 77 4.3 Mô-đun tiền xử lý 78 4.4 Mơ-đun nhận dạng tiếng nói 78 4.5 Mô-đun tổng hợp tiếng nói 80 4.6 Bộ Dialog Manager 81 Chương Triển khai ứng dụng tổng đài hỗ trợ chuyển gọi tự động – hệ thống VIS::DIR 83 5.1 Môi trường phát triển 83 5.2 Phân tích, thiết kế xây dựng hệ thống 84 5.2.1 Mơ hình Use-Case 84 5.2.2 Thiết kế liệu 87 5.2.3 Thiết kế kiến trúc 88 5.2.4 Cài đặt hệ thống 88 5.2.5 Hướng dẫn sử dụng 92 Chương Kết luận hướng phát triển 93 6.1 Kết luận 93 6.2 Hướng phát triển 93 Tài liệu tham khảo 94 Phụ lục 99 Danh mục hình ảnh Hình Mục tiêu đề tài 18 Hình Cơ chế hoạt động hệ thống hỏi đáp thông tin tự động 21 Hình Các thành phần voice server 22 Hình Tác vụ nhận dạng tiếng nói voice server 23 Hình Tác vụ tổng hợp tiếng nói voice server 24 Hình Kiến trúc hệ thống Viet Voice Server (VIS) 32 Hình Kiến trúc tổng quan hệ thống Asterisk 34 Hình Sơ đồ kế nối Asterisk với hệ thống khác 36 Hình Mơ hình xử lý khử nhiễu 38 Hình 10 Cơ chế chia Frame 39 Hình 11 Tín hiệu trước sau nhân với cửa sổ Hamming 40 Hình 12 Tương quan tọa độ Descartes tọa độ thực 41 Hình 13 Cấu trúc header tập tin WAV 44 Hình 14 Ví dụ cụ thể cấu trúc tập tin wav 47 Hình 15 Tín hiệu trước sau chuẩn hố – khử nhiễu 48 Hình 16 Các thành phần hệ thống nhận dạng tiếng nói 49 Hình 17 Các bước rút trích đặc trưng MFCC từ tín hiệu âm 50 Hình 18 Mơ hình ngữ âm HMM mức từ 51 Hình 19 Biểu diễn mơ hình ngữ âm cho từ âm vị 51 Hình 20 - Tiến trình xây dựng đồ thị kết ghép từ mơ hình ngơn ngữ, mơ hình ngữ âm từ điển phát âm 54 Hình 21 - Đồ thị Word internal triphone 55 Hình 22 - Đồ thị Cross-word triphones 56 Hình 23 Các thành phần hệ thống tổng hợp tiếng nói 57 Hình 24 Minh họa q trình chọn cụm từ thích hợp 60 Hình 25 Sơ đồ xử lý ngôn ngữ tự nhiên Voice Server 65 10 [36] Trịnh Anh Tuấn, Đỗ Trung Tá: Một số kết nghiên cứu điệu phát âm biến cho tổng hợp tiếng Việt, Tạp chí Bưu Viễn thơng, Số 3, 2000, tr 5-9 [37] Trịnh Anh Tuấn: Một số phương pháp nâng cao chất lượng hệ thống tổng hợp tiếng Việt V-TALK, Tạp chí Bưu Viễn thơng, Số 3, 2000, tr 19-23 [38] Lê Hồng Minh: Tổng hợp formant âm tiết tiếng Việt, Tạp chí Bưu Viễn thông, Số 179, 2002, tr 41-44 [39] Lê Hồng Minh: Một số kết phân tích ngữ âm để tổng hợp tiếng Việt từ văn luật, Tạp chí Bưu Viễn thơng, Số 15, 2005, tr 59-65 [40] Lê Hồng Minh, Phân tích Tổng hợp đặc tính cao độ tiếng Việt, Kỷ yếu hội thảo Quốc gia lần – Một số vấn đề chọn lọc Công nghệ Thông tin, 2005, tr 267-276 [41] Lê Tang Hồ: Nhu liệu đọc tiếng Việt, http://noitiengviet.ca/ [42] Lê Hồng Minh: vnspeech, www.freewebs.com/vnspeech/ [43] Pham Thanh Nam, Tiếng nói Việt Nam, http://sourceforge.net/projects/vietnamesevoice/ [44] Website: http://www.grandstream.com [45] Website: http:// www.asterisk.org 98 Phụ lục Các báo liên quan đến đề tài đăng tạp chí, hội nghị khoa học [1] Dau Ngoc Ha Duong, Le Ha Minh, Le Quoc Cuong, Vu Hai Quan, A Robust Vietnamese Voice Server for Automated Directory Assistance Application,VLSP Workshop - RIVF Conference, 2012 [2] Nhut M Pham, Quan Vu, A Spoken Dialog System For Stock Information Inquiry, IT@EDU, 2010 [3] Hue Nguyen, Truong Tran, Nhi Le, Nhut Pham, Quan Vu, iSago: The Vietnamese Mobile Speech Assistant for Food-court and Restaurant Location, VLSP Workshop RIVF Conference, 2012 99

Định dạng
Số trang	112
Dung lượng	9,16 MB