Xây dựng nền tảng thu thập và xử lý dữ liệu tiếng nói

82 4 0
Xây dựng nền tảng thu thập và xử lý dữ liệu tiếng nói

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC ĐÀ NẴNG TRƢỜNG ĐẠI HỌC BÁCH KHOA - - LÊ TÙNG DƢƠNG C C XÂY DỰNG NỀN TẢNG R L T THU THẬP VÀ XỬ LÝ DỮ LIỆU TIẾNG NÓI DU LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng – Năm 2020 ĐẠI HỌC ĐÀ NẴNG TRƢỜNG ĐẠI HỌC BÁCH KHOA - - LÊ TÙNG DƢƠNG XÂY DỰNG NỀN TẢNG THU THẬP VÀ XỬ LÝ DỮ LIỆU TIẾNG NÓI C C R L T DU Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 8480101 LUẬN VĂN THẠC SĨ KỸ THUẬT Ngƣời hƣớng dẫn khoa học: TS NINH KHÁNH DUY Đà Nẵng – Năm 2020 i LỜI CAM ĐOAN Tác giả xin cam đoan cơng trình nghiên cứu thân tác giả Các kết nghiên cứu kết luận luận văn trung thực, không chép từ nguồn hình thức Việc tham khảo nguồn tài liệu thực trích dẫn ghi nguồn tài liệu tham khảo quy định Tác giả luận văn Lê Tùng Dƣơng C C DU R L T ii LỜI CẢM ƠN Sau thời gian học tập rèn luyện, biết ơn kính trọng, tơi xin gửi lời cảm ơn chân thành đến Ban Giám hiệu, phòng, khoa thuộc Trường đại học Đà nẵng Phó Giáo sư, Tiến sĩ nhiệt tình hướng dẫn, giảng dạy tạo điều kiện thuận lợi giúp đỡ suốt trình học tập, nghiên cứu hồn thiện đề tài nghiên cứu khoa học Đặc biệt, xin bày tỏ lòng biết ơn sâu sắc tới TS Ninh Khánh Duy, người Thầy trực tiếp người ln tận tình hướng dẫn, bảo, giúp đỡ động viên tơi suốt q trình nghiên cứu hoàn thành đề tài nghiên cứu Xin chân thành cảm ơn gia đình, bạn bè đồng nghiệp ln khích lệ giúp đỡ tơi q trình học tập nghiên cứu khoa học C C Tác giả luận văn DU R L T Lê Tùng Dƣơng iii TÓM TẮT LUẬN VĂN XÂY DỰNG NỀN TẢNG THU THẬP VÀ XỬ LÝ DỮ LIỆU TIẾNG NÓI Lê Tùng Dƣơng, học viên cao học khóa 33, chuyên ngành Khoa học máy tính Mã số: 8480101 Khóa: 33 Trường Đại học Bách khoa – ĐHĐN Tóm tắt – Ở Việt Nam việc xử lý tiếng Việt có nhiều cơng trình nghiên cứu thử nghiệm, nhiên, kết cịn hạn chế Ngồi ra, đất nước Việt Nam có nhiều vùng miền, dân tộc với giọng nói âm điệu khác nhau, dẫn đến bất tiện giao tiếp tiếng Việt vùng miền dân tộc với Mục tiêu luận văn nhằm xây dựng kho liệu lớn phục vụ cho nghiên cứu xử lý tiếng nói tiếng Việt - hệ thống theo mơ hình client/server Trong đó, phía client app điện thoại di động thông minh cho phép thu thập liệu tiếng nói thơng tin người cung cấp liệu đơn giản thuận tiện Phía server hệ thống lưu trữ tập trung, cho phép lưu trữ quản lý số lượng lớn mẫu ghi âm tiếng nói số cơng cụ thuật tốn cho phép hỗ trợ xử lý tiếng nói Luận văn nghiên cứu ý tưởng phương pháp sử dụng mơ hình thu thập, lưu trữ quản lý liệu tiếng nói lớn, từ xây dựng hệ thống phần mềm có khả thu thập liệu tiếng nói phân tán, xử lý sơ mẫu lưu trữ liệu sẵn sàng phục vụ xử lý tiếng nói theo phương pháp liệu lớn Nội dung thực tập trung vào nghiên cứu, cài đặt đánh giá hiệu thuật tốn tính tỉ lệ tín hiệu nhiễu (SNR) tín hiệu tiếng nói miền thời gian dùng để gán nhãn tín hiệu tiếng nói thu thập được; đồng thời xây dựng hệ thống phần mềm nhằm thu thập CSDL tiếng nói phục vụ cho nghiên cứu xử lý tiếng nói Kết nghiên cứu sở liệu tiếng nói lớn gán nhãn với độ xác cao sẵn sàng phục vụ hệ thống xử lý tiếng nói người Việt tương lai Từ khóa – Xử lý liệu tiếng nói, Tiếng Việt, Dữ liệu lớn, Thuật tốn tính tỉ lệ tín hiệu nhiễu, Thuật tốn VUS, Thuật tốn WADA C C DU R L T iv BUILDING THE COLLECTING AND PROCESSING VOICE DATA SYSTEM Le Tung Duong, Master student of course 33, majoring in Computer Science Code: 8480101 Course: 33 Da Nang university of Technology – Da Nang university Abstract - In Vietnam, there are many researches in Vietnamese voice data processing, however, the results are still limited In addition, Vietnam has many regions and ethnic groups with different voices and tones, leading to the inconvenience of communicating in Vietnamese between regions and ethnic groups The objective of this thesis is building a big data set serving for Vietnamese voice processing - a system based on the client/server model in which the client is a mobile application allowing to collect voice data and user information simply and conveniently The server is a centralized storage system, which allows to store, manage a large amount of voice recording samples and some algorithmic tools for voice processing The reseach shows basic ideas and methods used in collecting, storing and managing voice big data, then building a software system capable of collecting distributed voice data, preliminarily processing voice samples and storing the data based on big data methods, ready for other voice processing reseaches The main content is focused on researching, installing and evaluating the effectiveness of the signal-to-noise (SNR) algorithms in the time domain for labeling the collected voice data; and building a software system to collect the voice data used for voice processing researches The result of this research is a voice big data with high precision, and already labeled that will be available for Vietnamese voice processing systems in the future Key words - Voice data processing, Vietnamese voice, Big data, Signal-to-noise ratio calculation algorithm, VUS algorithm (Voiced/Unvoiced/Silence), WADA algorithm (Waveform Amplitude Distribution Analysis) C C DU R L T v MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC v DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT vii DANH MỤC HÌNH VẼ viii DANH MỤC BẢNG BIỂU .ix MỞ ĐẦU CHƢƠNG TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI 1.1 Xử lý tiếng nói ứng dụng 1.1.1 Ứng dụng tổng hợp tiếng nói C C 1.1.2 Ứng dụng nhận dạng tiếng nói 1.2 Khái niệm tín hiệu tiếng nói R L T 1.2.1 Biểu diễn miền thời gian 1.2.2 Biển diễn miền tần số .9 DU 1.3 Các đặc tính tín hiệu tiếng nói 10 1.3.1 Âm sắc .10 1.3.2 Cường độ 11 1.3.3 Trường độ 12 1.3.4 Âm hữu 13 1.3.5 Âm vô 13 1.4 Xử lý ngắn hạn (short-time processing) 13 1.5 Tỉ lệ tín hiệu nhiễu tín hiệu tiếng nói (SNR) 16 1.5.1 SNR gì? 16 1.5.2 Các lý cần tính tốn SNR tín hiệu âm 16 1.5.3 Các thuật tốn tính SNR 17 1.6 Tổng kết chương 17 CHƢƠNG CÁC THUẬT TỐN TÍNH TỈ LỆ TÍN HIỆU TRÊN TẠP ÂM CỦA TÍN HIỆU TIẾNG NĨI 19 2.1 Mở đầu 19 2.2 Thuật toán VUS (Voiced/Unvoiced/Silence) 19 vi 2.3 Thuật toán WADA(Waveform Amplitude Distribution Analysis) 21 2.4 Kết so sánh thuật toán 22 2.4.1 Cài đặt liệu đầu vào 22 2.4.2 Kết so sánh 22 CHƢƠNG TRIỂN KHAI HỆ THỐNG VÀ KẾT QUẢ THỰC NGHIỆM 23 3.1 Mở đầu 23 3.2 Phát biểu toán 23 3.3 Lựa chọn thuật toán 23 3.4 Thiết kế hệ thống 24 3.4.1 Các cam kết ràng buộc 24 3.4.2 Đối tượng hướng đến 24 C C 3.4.3 Tác nhân 25 3.4.4 Ca sử dụng biểu đồ sequence 26 R L T 3.4.5 Thiết kế sở liệu 28 3.4.6 Thiết kế server 29 DU 3.4.7 Sơ đồ phân rã chức 31 3.4.8 Sơ đồ luồng liệu 32 3.5 Công nghệ sử dụng 34 3.5.1 Cơng nghệ phía server 34 3.5.2 Công nghệ chức client 34 3.5.3 Thiết kế giao diện 41 3.6 Kết thực nghiệm 43 3.6.1 Xây dựng liệu văn thu thập 43 3.6.2 Dữ liệu số lượng tổng quát .44 3.6.3 Dữ liệu theo vùng miền 44 3.6.4 Dữ liệu ví dụ thực tế 45 3.8 Đánh giá ưu nhược điểm hệ thống 45 3.9 Tổng kết chương 46 KẾT LUẬN 47 TÀI LIỆU THAM KHẢO PHỤ LỤC vii DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT Từ viết tắt Tên đầy đủ SNR Signal-to-noise ratio Giải thích Tỉ lệ tín hiệu nhiễu tín hiệu tiếng nói SS Spectral-subtraction Trừ phổ IDFT Inverse Discrete Fourier Transform Biến đổi Fourier rời rạc ngược DFT Discrete Fourier Transform Biến đổi Fourier rời rạc VUS Voiced/Unvoiced/Silence Thuật toán Voiced/ Unvoiced/ Silence STE Short time energy Zero-Crossing Rate Năng lượng thời gian ngắn ZCR Tỷ lệ trượt ngang R L T WADA Waveform Amplitude Distribution Analysis DFD Data Flow Diagram API Application Programming Interface CSDL C C Tồn dải LF DU Thuật tốn Waveform Amplitude Distribution Analysis Sơ đồ luồng liệu Giao diện lập trình ứng dụng Cơ sở liệu PHP Hypertext Preprocessor Ngơn ngữ lập trình kịch AI Artifical Intelligence Trí tuệ nhân tạo REST REpresentational State Transfer Chuyển đổi cấu trúc liệu HTTP HyperText Transfer Protocol Giao thức truyền tải siêu văn URL Uniform Resource Locator Định vị tài nguyên thống SOAP Simple Object Access Protocol Giao thức truy cập Webservice sử dụng thời gian WSDL Web Service Definition Language Ngôn ngữ định nghĩa dịch vụ web CRUD Create, Read, Update, Delete Tạo mới, Đọc, Cập nhật, Xóa DI Dependency Injection Kĩ thuật object cung cấp dependencies object khác IoC Inversion of Control Nguyên lý thiết kế công nghệ phần mềm viii DANH MỤC BẢNG Bảng 2.1 Bảng so sánh kết từ hai thuật toán WADA-SNR VUS-SNR 22 Bảng 3.1 Bảng giới tính 24 Bảng 3.2 Bảng nhóm tuổi 25 Bảng 3.3 Bảng vùng miền 25 Bảng 3.4 Các đường dẫn có server .30 Bảng 3.5 Bảng liệu kết thu thập tổng quát 44 Bảng 3.6 Bảng liệu kết thu thập theo vùng miền .44 Bảng 3.7 Bảng liệu ví dụ thực tế .45 C C DU R L T C C DU R L T C C DU R L T C C DU R L T C C DU R L T C C DU R L T C C DU R L T C C DU R L T C C DU R L T C C DU R L T C C DU R L T C C DU R L T C C DU R L T C C DU R L T C C DU R L T C C DU R L T ... liệu lớn âm tín hiệu tiếng nói người đọc tiếng Việt Mặc dù liệu tiếng nói thành phần thiết yếu để xây dựng công cụ xử lý tiếng nói, lượng liệu tiếng nói tiếng Việt hạn chế Nhằm xây dựng kho liệu. .. liệu tiếng nói với số lượng lớn - Đề xuất sử dụng thu? ??t toán xây dựng hệ thống hỗ trợ xử lý tiếng nói, lưu trữ để làm tảng cho ứng dụng xử lý tiếng nói tiếng Việt - Một số liệu CSDL tiếng nói thu. .. pháp xây dựng hệ thống phần mềm thu thập xử lý liệu tiếng nói gồm thành phần cần xây dựng: - Kịch thu thập tiếng nói đa địa điểm smartphone - Mơ hình lưu trữ cung cấp dịch vụ liệu tiếng nói -

Ngày đăng: 16/06/2021, 10:18

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan