TRƯỜ Ạ Ọ ỘNG Đ I H C BÁCH KHOA HÀ N I LUẬN VĂN THẠC SĨ Nghiên c u xây d ng h ng nh n d ng ứ ự ệ thố ậ ạ ti t ế ế ệng nói ti ng Vi ứng d ng cho phụ ần m m ghi biên b n h p ề ả ọ MAI VĂN TUẤN TuanMV CAC[.]
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng Việt ứng dụng cho phần mềm ghi biên họp MAI VĂN TUẤN TuanMV.CAC19008@sis.hust.edu.vn Ngành Kỹ thuật Điều khiển Tự động hóa Giảng viên hướng dẫn: PGS TS Nguyễn Quốc Cường Viện: Điện Chữ ký GVHD HÀ NỘI, 10/2020 Tai ngay!!! Ban co the xoa dong chu nay!!! 17061132018041000000 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn : Mai Văn Tuấn Đề tài luận văn: Nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng Việt ứng dụng cho phần mềm ghi biên họp Chuyên ngành: Kỹ thuật Điều khiển Tự động hóa Mã số SV: CAC19008 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 31/10/2020 với nội dung sau: - Sửa lỗi tả luận văn - Thêm trích dẫn nguồn từ hình vẽ - Việt hóa thuật ngữ tiếng anh - Chuẩn hóa lại cơng thức tham chiếu đến công thức - Cân đối lại độ dài chương Hà Nội, Ngày tháng năm 2020 Giáo viên hướng dẫn Tác giả luận văn CHỦ TỊCH HỘI ĐỒNG Kính gửi : Viện Điện PHIẾU ĐĂNG KÝ HƯỚNG DẪN ĐỀ TÀI(*) Họ tên người hướng dẫn chính: Nguyễn Quốc Cường sĩ Học hàm: PGS Học vị: Tiến Cơ quan: Bộ môn Kỹ thuật đo Tin học Công nghiệp - Viện Điện - Trường Đại học Bách khoa Hà Nội Email: cuong.nguyenquoc@hust.edu.vn 38696233 NR : DĐ: 0912 265 621 CQ : 04 Nội dung: Chuyên ngành: Đo lường hệ thống điều khiển a Tên đề tài: Nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng Việt ứng dụng cho phần mềm ghi biên họp Tên tiếng Anh : Automatic speech recognition for meeting note software b Mục tiêu đề tài: Xây dựng mơ hình nhận dạng tiếng nói tiếng Việt ứng dụng vào sản phẩm bóc băng họp c Nội dung đề tài, vấn đề cần giải quyết: Xây dựng liệu lớn tiếng nói tiếng Việt Nghiên cứu phương pháp nâng cao chất lượng mơ hình âm học điều kiện chạy thực tế Nghiên cứu phương pháp xây dựng mô hình ngơn ngữ phù hợp tốn nhận dạng giọng hội thoại tự nhiên Viết báo khoa học Hà Nội, Ngày tháng năm 2020 Người hướng dẫn Lời cảm ơn Lời xin cảm ơn PGS.TS Nguyễn Quốc Cường, người thầy tận tình hướng dẫn từ ngày đầu chọn đề tài thực luận văn Tôi xin chân thành cảm ơn anh Đỗ Văn Hải, anh Lê Nhật Minh người đồng nghiệp nhóm nghiên cứu xử lý tiếng nói - Trung tâm Khơng Gian Mạng Viettel giúp đỡ, tạo điều kiện cho nhiều q trình thực luận văn Cuối cùng, tơi muốn gửi lời cảm ơn tới gia đình, bạn bè người bên ủng hộ để tơi hồn thành luận văn TÓM TẮT LUẬN VĂN THẠC SĨ Đề tài: Nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng Việt ứng dụng cho phần mềm ghi biên họp Tác giả luận văn: Mai Văn Tuấn Khóa: 2019A Người hướng dẫn: PGS.TS Nguyễn Quốc Cường Từ khóa (Keyword): Automatic Speech Recognition, Noise robustness acoustic model, Coversational Language Model Nội dung tóm tắt: a) Lý chọn đề tài Vấn đề thực tế: việc ghi chép, tóm tắt lại văn sau họp, vấn thời gian công sức Trong bối cảnh nay, với phổ biến trí tuệ nhân tạo, cơng nghệ nhận dạng tiếng nói - chuyển từ tiếng nói sang văn ghi nhận bước tiến vượt bậc đạt đến độ chín để tích hợp vào sản phẩm trợ giúp phần ghi chép người Trên giới, có nhiều doanh nghiệp công nghệ lớn, đưa công nghệ nhận dạng tiếng nói vào sản phẩm ghi chép, ghi giọng nói phần lớn hỗ trợ tiếng Anh Tại Việt Nam, từ năm 2018 có sản phẩm bóc băng tiếng Việt đưa thị trường triển khai ban ngành, doanh nghiệp đem lại phản hồi tích cực từ phía người dùng Vì tơi lựa chọn đề tài “Nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng Việt ứng dụng cho phần mềm ghi biên họp” để nghiên cứu, đề xuất giải pháp nâng cao chất lượng công nghệ chuyển đổi từ giọng nói sang chữ viết phần mềm ghi biên họp b) Mục đích nghiên cứu luận văn, đối tượng phạm vi nghiên cứu Mơ hình nhận dạng tiếng nói xây dựng luận văn cần phải đảm bảo chất lượng, hoạt động ổn định điều kiện thực tế Đồng thời mơ hình cần phải đáp ứng yêu cầu hiệu năng, tốc độ tối ưu sản phẩm c) Tóm tắt đóng góp tác giả - Quy trình thu thập liệu cho hệ thống nhận dạng tiếng nói liệu lớn Các phương pháp xây dựng mơ hình âm học ổn định với nhiễu thực tế Các phương pháp xây dựng mơ hình ngơn ngữ hội thoại thích hợp với toán ghi âm họp d) Bố cục luận văn Luận văn bao gồm chương có nội dung sau - - - - CHƯƠNG 1: TỔNG QUAN PHẦN MỀM GHI BIÊN BẢN HỌP VÀ KHẢO SÁT CÁC SẢN PHẨM NHẬN DẠNG TIẾNG NÓI: Chương mô tả kiến trúc hệ thống phần mềm bóc băng bản, nhũng khảo sát việc ứng dụng công nghệ nhận dạng CHƯƠNG 2: TỔNG QUAN CƠNG NGHỆ NHẬN DẠNG TIẾNG NĨI: Chương chủ yếu nói lý thuyết cơng nghệ nhận dạngtiếng nói CHƯƠNG 3: XÂY DỰNG VÀ CẢI THIỆN HỆ THỐNG NHẬN DẠNG TIÊNG NĨI: Chương mơ tả phương pháp đề xuất, thí nghiệm tác giả huấn luyện mơ hình nhận dạng CHƯƠNG 4: KẾT QUẢ TÍCH HỢP VÀO SẢN PHẨM:Chương đề cập đến tích hợp mơ hình nhận dạng tiếng nói xây dựng chương trước vào sản phẩm thực tế Học viên thực MỤC LỤC CHƯƠNG 1: TỔNG QUAN PHẦN MỀM GHI BIÊN BẢN HỌP VÀ KHẢO SÁT CÁC SẢN PHẨM NHẬN DẠNG TIẾNG NÓI 1.1 Tổng quan phần mềm 1.1.1 Tính phần mềm 1.2.2 Kiến trúc phần mềm 1.2 Tình hình nghiên cứu phát triển sản phẩm nhận dạng tiếng nói 1.2.1 Các sản phẩm giới 1.1.2 Tình hình sản phẩm nhận dạng tiếng nói nước 1.3 Tổng kết CHƯƠNG 2: TỔNG QUAN CƠNG NGHỆ NHẬN DẠNG TIẾNG NĨI 2.1 Giới thiệu công nghệ nhận dạng 2.1.1 Lý thuyết 2.1.2 Phương diện toán học 2.2 Trích xuất đặc trưng 2.2.1 Đặc trưng MFCC 2.2.2 Đặc trưng Pitch 13 2.3 Mơ hình âm học 13 2.3.1 Mơ hình HMM-GMM 13 2.3.2 Mơ hình lai ghép HMM-DNN 16 Mơ hình ngơn ngữ 23 2.5 Tổng kết 25 CHƯƠNG 3: XÂY DỰNG VÀ CẢI THIỆN HỆ THỐNG NHẬN DẠNG TIẾNG NÓI 26 3.1 Lựa chọn công cụ 27 3.2 Chuẩn bị sở liệu 29 3.2.1 Đặt vấn đề 29 3.2.2 Phương pháp đề xuất 29 3.3.3 Thực 31 3.3 Huấn luyện mơ hình âm học 32 3.3.1 Đặt vấn đề 32 3.3.2 Phương pháp đề xuất 33 3.3.3 Thực nghiệm 35 3.4 Huấn luyện mơ hình ngơn ngữ 41 3.4.1 Đặt vấn đề 41 3.4.2 Phương pháp đề xuất 41 3.4.3 Thực nghiệm 42 3.5 Tổng kết 44 CHƯƠNG 4: KẾT QUẢ TÍCH HỢP VÀO SẢN PHẨM 45 4.1 Giao diện sản phẩm 45 4.2 Đánh giá chất lượng 46 4.3 Đánh giá hiệu 46 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 49 TÀI LIỆU THAM KHẢO 50 DANH MỤC HÌNH ẢNH Hình 1-1 Kiến trúc phần mềm bóc băng Hình 2-1 Kiến trúc hệ thống nhận dạng tiếng nói Hình 2-2 Kiến trúc ASR phương diện toán học [4] Hình 2-3 Các bước trích xuất đặc trưng MFCC Hình 2-4 Ảnh hưởng tiền xử lý đến tín hiệu âm 10 Hình 2-10 Sơ đồ kiến trúc HMM-DNN[4] 17 Hình 2-11 Kiến trúc mạng TDNN [4] 19 Hình 2-12 Mạng RNN điển hình 20 Hình 2-13 Mạng RNN rút gọn 21 Hình 2-14 Một đơn vị nhớ mạng LSTM [4] 22 Hình3-1 Quy trình huấn luyện đề xuất 27 Hình 3- Pipline Kaldi 28 Hình 3-3 Các tầng thư viện kaldi 28 Hình 3-4 Quy trình chuẩn bị sở liệu đề xuất 30 Hình 3-5 Phân bố theo độ dài tập liệu 32 Hình 3-6 Phổ tín hiệu nhiễu 34 Hình 3-7 Phổ tín hiệu có tiếng nói nhiễu 34 Hình 3-8 Phân bố theo số lượng loại noise tập liệu 36 Hình 3-9 Phân bố SNR thu 39 Hình 3-10 Phương pháp xây dựng mơ hình ngơn ngữ đề xuất 41 Hình 3-11 PPL mơ hình ngơn ngữ tập dev 43 Hình 4-1 Giao diện ghi âm trực tiếp 45 Hình 4-2 Giao diện giải mã file offline 45 Hình 4-3 Thời gian đáp ứng streaming theo độ dài audio 47 Hình 4-4 Dung lượng Ram dùng theo worker 47 Hình 4-5 Thời gian trả theo số lượng thread 48 DANH MỤC BẢNG Bảng 3-1 Ví dụ cách thay đổi nhãn 35 Bảng 3-2 Thơng số trích xuất đặc trưng 37 Bảng 3-3 Thông tin tập test 37 Bảng 3-4 Kết đo SNR phòng họp khác 38 Bảng 3-5 Tỷ lệ lỗi WER (%) tập test 40 Bảng 3- Kích thước tập liệu PPL tương ứng 42 Bảng 3-7 Tỷ lệ lỗi WER (%) theo phương pháp thử nghiệm 43