(Luận văn) nghiên cứu về nhận dạng âm thanh và ứng dụng trong chuyển đổi âm thoại sang văn bản

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Nguyễn Hữu Đam NGHIÊN CỨU VỀ NHẬN DẠNG ÂM THANH VÀ ỨNG DỤNG TRONG CHUYỂN ĐỔI ÂM THOẠI SANG VĂN BẢN LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - 2020 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG - Nguyễn Hữu Đam NGHIÊN CỨU VỀ NHẬN DẠNG ÂM THANH VÀ ỨNG DỤNG TRONG CHUYỂN ĐỔI ÂM THOẠI SANG VĂN BẢN CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC TS.NGUYỄN ĐÌNH HĨA HÀ NỘI - 2020 i LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác Tác giả luận văn Nguyễn Hữu Đam ii LỜI CẢM ƠN Tôi xin gửi lời cảm ơn sâu sắc đến người hướng dẫn khoa học TS Nguyễn Đình Hóa, cảm ơn Thầy thời gian qua công việc bận rộn dành cho giúp đỡ hướng dẫn tận tình, kiến thức quý báu Thầy truyền đạt giúp tơi vượt qua khó khăn để hồn thành Luận văn Tơi xin chân thành cảm ơn Thầy cô giảng viên khoa Công nghệ thông tin Sau Đại Học Học Viện Cơng Nghệ Bưu Chính Viễn Thơng tận tình giảng dạy hướng dẫn suốt trình học tập nghiên cứu Học viện Tôi xin cảm ơn người thân gia đình, bạn bè, đồng nghiệp động viên, quan tâm giúp đỡ thời gian qua iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT v DANH SÁCH HÌNH VẼ v MỞ ĐẦU Chương - TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI 1.1 Lý thuyết âm tiếng nói 1.1.1 Nguồn gốc âm 1.1.2 Các đại lượng đặc trưng liệu âm 1.1.3 Các tần số âm 1.1.4 Cơ chế tạo lập tiếng nói người 1.1.5 Mơ hình lọc nguồn tạo tiếng nói 1.1.6 Hệ thống thính giác người 1.1.7 Quá trình tạo thu nhận tiếng nói 1.1.8 Mơ hình lọc nguồn tạo tiếng nói 1.2 Giới thiệu xử lý tiếng nói 11 1.2.1 Mục đích xử lý tiếng nói 11 1.3 Nhận dạng tiếng nói 12 1.3.1 Bài tốn nhận dạng tiếng nói 12 1.3.2 Các phương pháp nhận dạng tiếng nói 14 1.4 Nhận dạng tiếng Việt 18 1.4.1 Đặc điểm âm tiết tiếng Việt 19 1.4.2 Âm vị tiếng Việt 20 1.4.3 Sự phân bố âm vị tiếng Việt 24 1.4.4 Một số đặc điểm ngữ âm tiếng Việt 24 1.4.5 Những thuận lợi khó khăn nhận dạng tiếng Việt 25 1.5 Kết luận 26 Chương - CÁC KỸ THUẬT NHẬN DẠNG TỪ VỰNG TRONG ÂM THOẠI TIẾNG VIỆT 27 2.1 Các thành phần hệ thống nhận dạng tiếng nói 27 2.1.1 Trích chọn đặc trưng 28 2.1.2 Kỹ thuật khử nhiễu CMS 32 2.2 Tổng quan mô hình Markov ẩn HMM 33 2.2.1 Chuỗi Markov 33 2.2.2 Mơ hình Markov ẩn HMM 34 iv 2.2.3 Các thành phần HMM 36 2.2.4 Hàm mật độ xác suất hỗn hợp Gauss 37 2.3 Ba toán mơ hình Markov ẩn 38 2.3.1 Bài toán đánh giá 38 2.3.2 Bài toán giải mã 41 2.3.3 Bài toán huấn luyện 43 2.4 Ứng dụng HMM nhận dạng tiếng nói rời rạc 46 2.4.1 Tổng quan 46 2.4.2 Giai đoạn huấn luyện mơ hình 46 2.4.3 Giai đoạn nhận dạng 47 2.5 Kết luận 47 Chương - XÂY DỰNG HỆ THỐNG CHUYỂN ĐỔI ÂM THOẠI TIẾNG VIỆT SANG VĂN BẢN 48 3.1 Thu thập tiền xử lí tín hiệu tiếng nói 48 3.2 Trích chọn đặc trưng MFCC 50 3.3 Nhận dạng mơ hình HMM 51 3.4 Xây dựng liệu huấn luyện kiểm thử hệ thống hiển thị kết 52 3.4.1 Thu âm liệu 52 3.4.2 Đặc tính file liệu 53 3.4.3 Cấu hình hệ thống nhận dạng 53 3.4.4 Kết thực nghiệm 54 3.5 Kết luận 56 KẾT LUẬN VÀ KIẾN NGHỊ 57 DANH MỤC CÁC TÀI LIỆU THAM KHẢO 58 PHỤ LỤC 60 v DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt CMS Cepstral Mean Subtraction Lọc bỏ nhiễu CMS DCT Discrete Cosin Transform Biến đổi gián đoạn Cosin DFT Discrete Fourier Transform Biến đổi gián đoạn Fourier FFT Fast Fourier Transform Biến đổi Fourier nhanh HMM Hidden Markov Model Mơ hình Markov ẩn LPC Linear Predictive Coding Mã hoá dự báo tuyến tính MFCC Mel Scale Frequency Cepstral Các hệ số cepstral với thang Coefficients tần số Mel PLP Perceptual Linear Prediction Giác quan dự báo tuyến tính F0 Fundamental Frequency Tần số giao động dây LDA Linear Discriminant Analysis Phương pháp phân tích tuyến tính GMM Gaussian Mixture Model Mật độ xác suất sinh quan sát HTK Hidden Markov Model Toolkit Cơng cụ cho mơ hình HMM vi DANH SÁCH HÌNH VẼ Hình 1-1: Mơ hình lọc nguồn tạo tiếng nói Hình 1-2: Quá trình sản xuất thu nhận tiếng nói Hình 1-3: Mơ hình tốn xử lý tiếng nói Hình 1-4: Hệ thống nhận dạng tiếng nói theo phương pháp nhận dạng mẫu Hình 1-5: Tích hợp tri thức nhận dạng tiếng nói Hình 1-6: Cấu trúc âm tiết tiếng Việt Hình 1-7: Cấu trúc hai bậc âm tiết tiếng Việt Hình 1-8: Các điệu tiếng Việt Không dấu, Huyền, Ngã, Hỏi, Sắc, 6.Nặng Hình 1-9: Phân bố nguyên âm âm âm đệm bán nguyên âm cuối 24 12 16 18 20 20 Hình 2-1: Sơ đồ khối tổng quan hệ thống nhận dạng tiếng nói Hình 2-2: Sơ đồ bước trích chọn đặc trưng Hình 2-3: Sơ đồ khối bước tính tốn MFCC Hình 2-4: Tạo khung tín hiệu tiếng nói Hình 2-5: Sơ đồ khối bước tính tốn PLP Hình 2-6: Chuỗi Markov với trạng thái 1, 2, với xác suất chuyển tiếp tương ứng 11 đến 33 Hình 2-7: Mơ hình HMM-GMM Left-Right với N trạng thái Hình 2-8: Miêu tả dãy phép tốn thực để tính biến t (i) Hình 2-9: Miêu tả dãy phép tốn thực để tính biến t(i) Hình 2-10: Miêu tả phép tính cần thiết để tính t(i, j) Hình 2-11: Ứng dụng toán nhận dạng từ rời rạc Hình 2-12: Các bước huấn luyện HMM 27 28 29 30 31 Hình 3-1: Sơ đồ tổng quát hệ thống nhận dạng chuyển đổi Hình 3-2: Từ ‘hai’ thu âm – bao gồm nhiễu Hình 3-3: Từ ‘hai’ sau loại bỏ nhiễu Hình 3- 4: Các giá trị thuộc tính MFCC Hình 3- 5: Tổng quan mơ hình nhận dạng Hình 3- 6: Quy trình xây dựng hệ thống nhận dạng tiếng nói HTK [Young 2009] 61 48 49 50 51 52 21 31 35 40 41 44 46 47 MỞ ĐẦU Nhận dạng tiếng nói người thu hút quan tâm nghiên cứu nhiều nhà khoa học mà công nghệ tự động hóa ngày có nhiều ứng dụng thực tiễn sống Nghiên cứu nhận dạng tiếng nói Việt quan tâm nghiên cứu nhiều năm gần đây, kết chưa thỏa mãn toán đặt từ thực tế sống tính chất phức tạp ngữ âm tiếng Việt Xử lý tiếng nói trở thành lĩnh vực quan trọng xu hướng phát triển công nghệ xã hội Đặc biệt, công nghệ thông tin ngày phát triển ứng dụng xử lý tiếng nói ngày trở lên cấp thiết Mục đích nghiên cứu lĩnh vực xử lý tiếng nói làm cho việc tương tác người máy ngày hiệu tự nhiên Hiện giới công nghệ xử lý tiếng nói phát triển, hệ thống ứng dụng xử lý tiếng nói sử dụng nhiều nơi, độ xác hệ thống ngày cải thiện Các ứng dụng lĩnh vực xử lý tiếng nói phổ biến: nhận dạng tiếng nói, tổng hợp tiếng nói, xác thực người nói qua giọng nói thành tựu chúng áp dụng vào nhiều lĩnh vực thực tế Trên giới có nhiều hệ thống nhận dạng tiếng nói tiếng Anh ứng dụng hiệu như: Via Voice IBM, Spoken Toolkit CSLU (Central of Spoken Language Under-standing), Speech Recognition Engine Microsoft, Hidden Markov Model toolkit đại học Cambridge, CMU Sphinx đại học Carnegie Mellon, ra, số hệ thống nhận dạng tiến nói tiếng Pháp, Đức, Trung Quốc, phát triển Ở Việt Nam, nhận dạng tiếng nói lĩnh vực mẻ Đến có nhiều nghiên cứu nhận dạng tiếng nói tiếng Việt đạt số thành tựu, nhìn chung chưa đạt kết cần thiết để tạo sản phẩm mang tính ứng dụng cao Có thể kể đến cơng trình sau:  AILab: Đây cơng trình phịng thí nghiệm Trí tuệ Nhân tạo AILab thuộc Đại học Khoa học Tự nhiên tạo dựa công nghệ tiên tiến nhận dạng tổng hợp tiếng nói để đáp ứng nhu cầu người dùng Dựa công nghệ xử lí tiếng nói tiếng Việt, AILab xây dựng phần mềm iSago chun hỗ trợ tìm kiếm thơng tin qua tiếng nói Thơng qua ứng dụng phần mềm người sử dụng có khả hỗ trợ giao tiếp với điện thoại di động trực tiếp lời nói Từ người sử dụng tìm kiếm thơng tin nhà hàng, qn Bar, Café địa bàn TP HCM Khi người dùng đặt câu hỏi tiếng nói, iSago truyền nội dung truy vấn server để xử lý gửi lại kết tìm kiếm, dạng danh sách: tên nhà hàng, địa Phần mềm cho phép người dùng hiển thị địa tìm dạng đồ nghe đọc địa trực tiếp cơng nghệ tổng hợp giọng nói Phần mềm cung cấp miễn phí địa www.ailab.hcmus.edu.vn  Vietvoice: Đây phần mềm người dân Việt Nam ngụ  Vspeech: Đây phần mềm điều khiển máy tính giọng nói Canada Phần mềm có khả nói tiếng Việt từ tập tin Để chạy chương trình, cần cài đặt Microsoft Visual C++ 2005 Redistributable Package (x86) Đối với người khiếm thị, phần mềm cho phép sử dụng cách gõ tắt (nhấn nút Ctrl chữ) để chọn lựa tính hiển thị hình Người dùng cập nhật từ điển chữ viết tắt từ ngữ tiếng nước ngồi nhóm sinh viên Đại học Bách Khoa TP HCM viết Phần mềm sử dụng thư viện Microsoft Speech SDK để nhận dạng tiếng Anh chuyển thành tiếng Việt Nhóm thành công với ý tưởng này, sử dụng lại thư viện nhận dạng engine nên thời gian thiết kế rút ngắn lại mà hiệu nhận dạng tốt Phần mềm Vspeech có lệnh gọi hệ thống đơn giản gọi thư mục My Computer, nút Start, Phiên có tương tác với MS Word 2003, lướt web với trình duyệt Internet

Định dạng
Số trang	73
Dung lượng	525,37 KB