Nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng việt ứng dụng cho phần mềm ghi biên bản họp

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng Việt ứng dụng cho phần mềm ghi biên họp MAI VĂN TUẤN TuanMV.CAC19008@sis.hust.edu.vn Ngành Kỹ thuật Điều khiển Tự động hóa Giảng viên hướng dẫn: PGS TS Nguyễn Quốc Cường Chữ ký GVHD Viện: Điện HÀ NỘI, 10/2020 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn : Mai Văn Tuấn Đề tài luận văn: Nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng Việt ứng dụng cho phần mềm ghi biên họp Chuyên ngành: Kỹ thuật Điều khiển Tự động hóa Mã số SV: CAC19008 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 31/10/2020 với nội dung sau: - Sửa lỗi tả luận văn - Thêm trích dẫn nguồn từ hình vẽ - Việt hóa thuật ngữ tiếng anh - Chuẩn hóa lại cơng thức tham chiếu đến công thức - Cân đối lại độ dài chương Hà Nội, Ngày tháng năm 2020 Giáo viên hướng dẫn Tác giả luận văn CHỦ TỊCH HỘI ĐỒNG Kính gửi : Viện Điện PHIẾU ĐĂNG KÝ HƯỚNG DẪN ĐỀ TÀI(*) Họ tên người hướng dẫn chính: Nguyễn Quốc Cường sĩ Học hàm: PGS Học vị: Tiến Cơ quan: Bộ môn Kỹ thuật đo Tin học Công nghiệp - Viện Điện - Trường Đại học Bách khoa Hà Nội Email: cuong.nguyenquoc@hust.edu.vn 38696233 NR : DĐ: 0912 265 621 CQ : 04 Nội dung: Chuyên ngành: Đo lường hệ thống điều khiển a Tên đề tài: Nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng Việt ứng dụng cho phần mềm ghi biên họp Tên tiếng Anh : Automatic speech recognition for meeting note software b Mục tiêu đề tài:  Xây dựng mơ hình nhận dạng tiếng nói tiếng Việt ứng dụng vào sản phẩm bóc băng họp c Nội dung đề tài, vấn đề cần giải quyết:  Xây dựng liệu lớn tiếng nói tiếng Việt  Nghiên cứu phương pháp nâng cao chất lượng mơ hình âm học điều kiện chạy thực tế  Nghiên cứu phương pháp xây dựng mô hình ngơn ngữ phù hợp tốn nhận dạng giọng hội thoại tự nhiên  Viết báo khoa học Hà Nội, Ngày tháng năm 2020 Người hướng dẫn Lời cảm ơn Lời xin cảm ơn PGS.TS Nguyễn Quốc Cường, người thầy tận tình hướng dẫn từ ngày đầu chọn đề tài thực luận văn Tôi xin chân thành cảm ơn anh Đỗ Văn Hải, anh Lê Nhật Minh người đồng nghiệp nhóm nghiên cứu xử lý tiếng nói - Trung tâm Khơng Gian Mạng Viettel giúp đỡ, tạo điều kiện cho nhiều q trình thực luận văn Cuối cùng, tơi muốn gửi lời cảm ơn tới gia đình, bạn bè người bên ủng hộ để tơi hồn thành luận văn TÓM TẮT LUẬN VĂN THẠC SĨ Đề tài: Nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng Việt ứng dụng cho phần mềm ghi biên họp Tác giả luận văn: Mai Văn Tuấn Khóa: 2019A Người hướng dẫn: PGS.TS Nguyễn Quốc Cường Từ khóa (Keyword): Automatic Speech Recognition, Noise robustness acoustic model, Coversational Language Model Nội dung tóm tắt: a) Lý chọn đề tài Vấn đề thực tế: việc ghi chép, tóm tắt lại văn sau họp, vấn thời gian công sức Trong bối cảnh nay, với phổ biến trí tuệ nhân tạo, cơng nghệ nhận dạng tiếng nói - chuyển từ tiếng nói sang văn ghi nhận bước tiến vượt bậc đạt đến độ chín để tích hợp vào sản phẩm trợ giúp phần ghi chép người Trên giới, có nhiều doanh nghiệp công nghệ lớn, đưa công nghệ nhận dạng tiếng nói vào sản phẩm ghi chép, ghi giọng nói phần lớn hỗ trợ tiếng Anh Tại Việt Nam, từ năm 2018 có sản phẩm bóc băng tiếng Việt đưa thị trường triển khai ban ngành, doanh nghiệp đem lại phản hồi tích cực từ phía người dùng Vì tơi lựa chọn đề tài “Nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng Việt ứng dụng cho phần mềm ghi biên họp” để nghiên cứu, đề xuất giải pháp nâng cao chất lượng công nghệ chuyển đổi từ giọng nói sang chữ viết phần mềm ghi biên họp b) Mục đích nghiên cứu luận văn, đối tượng phạm vi nghiên cứu Mơ hình nhận dạng tiếng nói xây dựng luận văn cần phải đảm bảo chất lượng, hoạt động ổn định điều kiện thực tế Đồng thời mơ hình cần phải đáp ứng yêu cầu hiệu năng, tốc độ tối ưu sản phẩm c) Tóm tắt đóng góp tác giả - Quy trình thu thập liệu cho hệ thống nhận dạng tiếng nói liệu lớn Các phương pháp xây dựng mơ hình âm học ổn định với nhiễu thực tế Các phương pháp xây dựng mơ hình ngơn ngữ hội thoại thích hợp với toán ghi âm họp d) Bố cục luận văn Luận văn bao gồm chương có nội dung sau - - - - CHƯƠNG 1: TỔNG QUAN PHẦN MỀM GHI BIÊN BẢN HỌP VÀ KHẢO SÁT CÁC SẢN PHẨM NHẬN DẠNG TIẾNG NÓI: Chương mô tả kiến trúc hệ thống phần mềm bóc băng bản, nhũng khảo sát việc ứng dụng công nghệ nhận dạng CHƯƠNG 2: TỔNG QUAN CƠNG NGHỆ NHẬN DẠNG TIẾNG NĨI: Chương chủ yếu nói lý thuyết cơng nghệ nhận dạngtiếng nói CHƯƠNG 3: XÂY DỰNG VÀ CẢI THIỆN HỆ THỐNG NHẬN DẠNG TIÊNG NĨI: Chương mơ tả phương pháp đề xuất, thí nghiệm tác giả huấn luyện mơ hình nhận dạng CHƯƠNG 4: KẾT QUẢ TÍCH HỢP VÀO SẢN PHẨM:Chương đề cập đến tích hợp mơ hình nhận dạng tiếng nói xây dựng chương trước vào sản phẩm thực tế Học viên thực MỤC LỤC CHƯƠNG 1: TỔNG QUAN PHẦN MỀM GHI BIÊN BẢN HỌP VÀ KHẢO SÁT CÁC SẢN PHẨM NHẬN DẠNG TIẾNG NÓI 1.1 Tổng quan phần mềm 1.1.1 Tính phần mềm 1.2.2 Kiến trúc phần mềm 1.2 Tình hình nghiên cứu phát triển sản phẩm nhận dạng tiếng nói 1.2.1 Các sản phẩm giới 1.1.2 Tình hình sản phẩm nhận dạng tiếng nói nước 1.3 Tổng kết CHƯƠNG 2: TỔNG QUAN CƠNG NGHỆ NHẬN DẠNG TIẾNG NĨI 2.1 Giới thiệu công nghệ nhận dạng 2.1.1 Lý thuyết 2.1.2 Phương diện toán học 2.2 Trích xuất đặc trưng 2.2.1 Đặc trưng MFCC 2.2.2 Đặc trưng Pitch 13 2.3 Mơ hình âm học 13 2.3.1 Mơ hình HMM-GMM 13 2.3.2 Mơ hình lai ghép HMM-DNN 16 Mơ hình ngơn ngữ 23 2.5 Tổng kết 25 CHƯƠNG 3: XÂY DỰNG VÀ CẢI THIỆN HỆ THỐNG NHẬN DẠNG TIẾNG NÓI 26 3.1 Lựa chọn công cụ 27 3.2 Chuẩn bị sở liệu 29 3.2.1 Đặt vấn đề 29 3.2.2 Phương pháp đề xuất 29 3.3.3 Thực 31 3.3 Huấn luyện mơ hình âm học 32 3.3.1 Đặt vấn đề 32 3.3.2 Phương pháp đề xuất 33 3.3.3 Thực nghiệm 35 3.4 Huấn luyện mơ hình ngơn ngữ 41 3.4.1 Đặt vấn đề 41 3.4.2 Phương pháp đề xuất 41 3.4.3 Thực nghiệm 42 3.5 Tổng kết 44 CHƯƠNG 4: KẾT QUẢ TÍCH HỢP VÀO SẢN PHẨM 45 4.1 Giao diện sản phẩm 45 4.2 Đánh giá chất lượng 46 4.3 Đánh giá hiệu 46 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 49 TÀI LIỆU THAM KHẢO 50 DANH MỤC HÌNH ẢNH Hình 1-1 Kiến trúc phần mềm bóc băng Hình 2-1 Kiến trúc hệ thống nhận dạng tiếng nói Hình 2-2 Kiến trúc ASR phương diện toán học [4] Hình 2-3 Các bước trích xuất đặc trưng MFCC Hình 2-4 Ảnh hưởng tiền xử lý đến tín hiệu âm 10 Hình 2-10 Sơ đồ kiến trúc HMM-DNN[4] 17 Hình 2-11 Kiến trúc mạng TDNN [4] 19 Hình 2-12 Mạng RNN điển hình 20 Hình 2-13 Mạng RNN rút gọn 21 Hình 2-14 Một đơn vị nhớ mạng LSTM [4] 22 Hình3-1 Quy trình huấn luyện đề xuất 27 Hình 3- Pipline Kaldi 28 Hình 3-3 Các tầng thư viện kaldi 28 Hình 3-4 Quy trình chuẩn bị sở liệu đề xuất 30 Hình 3-5 Phân bố theo độ dài tập liệu 32 Hình 3-6 Phổ tín hiệu nhiễu 34 Hình 3-7 Phổ tín hiệu có tiếng nói nhiễu 34 Hình 3-8 Phân bố theo số lượng loại noise tập liệu 36 Hình 3-9 Phân bố SNR thu 39 Hình 3-10 Phương pháp xây dựng mơ hình ngơn ngữ đề xuất 41 Hình 3-11 PPL mơ hình ngơn ngữ tập dev 43 Hình 4-1 Giao diện ghi âm trực tiếp 45 Hình 4-2 Giao diện giải mã file offline 45 Hình 4-3 Thời gian đáp ứng streaming theo độ dài audio 47 Hình 4-4 Dung lượng Ram dùng theo worker 47 Hình 4-5 Thời gian trả theo số lượng thread 48 DANH MỤC BẢNG Bảng 3-1 Ví dụ cách thay đổi nhãn 35 Bảng 3-2 Thơng số trích xuất đặc trưng 37 Bảng 3-3 Thông tin tập test 37 Bảng 3-4 Kết đo SNR phòng họp khác 38 Bảng 3-5 Tỷ lệ lỗi WER (%) tập test 40 Bảng 3- Kích thước tập liệu PPL tương ứng 42 Bảng 3-7 Tỷ lệ lỗi WER (%) theo phương pháp thử nghiệm 43 Phòng họp 3.8 4.7 5.3 4.6 13.3 14.4 10.1 12.6 Phòng họp 6.5 7.3 8.2 7.3 Phòng họp 10 14.2 13.8 15.1 14.3 Phòng họp 11 8.2 6.1 6.7 8.5 Phòng họp 12 7.2 6.5 7.4 7.0 Phòng họp Từ ta có biểu đồ phân bố tỷ lệ snr thực tế sau Hình 3-9 Phân bố SNR thu Ta thấy SNR phân bố dải từ 0-14 dB, tập trung nhiều khoảng từ 6-8 dB Những loại nhiễu phổ biến phịng họp kể đến tiếng điều hịa, tiếng quạt, tiếng nói chuyện lao xao… Tiến hành thực nghiệm với 200h liệu hội thoại chuẩn bị phương pháp đề xuất mục 3.2, sử dụng từ điển, đặc trung mô tả mục a Mơ hình âm học TDNN-LSTM[21], mơ hình ngơn ngữ dùng chung xây dựng từ web text text gán nhãn Kết thu sau 39 Bảng 3-5 Tỷ lệ lỗi WER (%) tập test VIVOS VLSP2018 SNR=0d B VIVOS SNR=5d B Mo del S1 S2 S3 35.29 31.71 30.86 6.28 5.63 5.45 57.93 40.79 40.42 38.02 25.90 25.03 28.21 20.06 18.83 36.62 32.84 31.49 37.87 32.84 31.97 S4 30.66 5.65 23.10 31.80 29.49 5.30 18.65 17.29 30.23 S5 35.51 33.83 29.67 30.20 21.69 VIVOS MEETSNR=10 INGNOTE dB VOI CENOT E VLS P201 Ký hiệu  S1: Mơ hình huấn luyện 200h ban đầu  S2: Mơ hình huấn luyện liệu 200h ban đầu + tổng quát hóa liệu với nhiễu tiếng nói, nhạc tiếng Anh  S3: Mơ hình huấn luyện liệu 200h ban đầu + tổng quát hóa liệu với nhiễu tiếng nói, nhạc tiếng Việt  S4: Mơ hình huấn luyện liệu mơ hình S3 dùng phương pháp mơ hình hóa loại nhiễu, mơ hình nhiễu mơ hình âm vị bình thường  S5: Giống mơ hình S4 loại nhiễu mơ hình hóa âm vị khoảng lặng c) Nhận xét Phương pháp tổng quát hóa liệu thêm loại nhiễu đáp ứng mô vang vọng vào liệu huấn luyện (S2, S3) mang lại kết tốt tập kiểm thử so với mơ hình dùng liệu ban đầu (S1) Mơ hình S2 làm giảm 10% WER tương đối so với S1 (VOICENOTE 10%, MEETINGNOTE 13%) Đặc biệt với tập test VIVOS add thêm nhiễu, mơ hình S2 cho cải thiện lên tới 31% (SNR=5dB), 28% (SNR=10dB) Khi sánh mơ hình S2 S1, thấy cải thiện WER tập test: MEETINGNOTE (4.1%), VOICENOTE (2.6%)…Điều chứng tỏ việc sử dụng liệu nhiễu nhạc, tiếng nói từ tiếng Việt cho hiệu so với tiếng Anh Khi so sánh S4 S3, ta tiếp tục chứng kiến cải thiện rệt chuyển mơ hình lại nhiễu giống mơ hình khoảng lặng, thể qua số VLSP2019: 3.8%, VLSP2018: 6%, VIVOS SNR=5dB: 6.1%, MEETINGNOTE : 1.8%, VOICENOTE: 5% 40 Tổng kết lại, phương pháp mơ hình hóa loại nhiễu (S5) đem lại kết tốt rõ rệt so với mơ hình ban đầu (S1) Các số cải thiện từ mơ hình S1 đến mơ hình S5: VLSP2019:16.4%, VLSP2018: 15.6%, VIVOS SNR=0dB: 41.6%, MEETINGNOTE: 18.9%, VOICENOTE 20.22% 3.4 Huấn luyện mơ hình ngơn ngữ 3.4.1 Đặt vấn đề Phong cách nói ảnh hưởng nhiều đến chất lượng giải mã, ta thấy bảng 3-5 kết giải mã tập liệu VLSP2018 (cỡ 95% ) tốt nhiều so với tập VLSP2019 (cỡ 70%) hay MEETINGNOTE (cỡ 70%) Trên thực tế văn phong lúc nói khác nhiều so với văn viết Vì nói tự nhiên, người nói dùng từ ngữ đời thường bị lắp,vấp nói Trong văn viết lại tập trung nhiều vào từ ngữ thống, câu nói đầy đủ thành phần trơi chảy Vì vậy, khơng thể áp dụng mơ hình ngữ từ văn viết cho toán nhận dạng hội thoại tự nhiên Vậy nên, vấn đề đặt cần phải xây dựng mơ hình ngơn ngữ phù hợp với phong cách nói hội thoại tập test 3.4.2 Phương pháp đề xuất Xây dựng mơ hình ngơn ngữ hội thoại dựa vào nội suy tuyến tính (Interpolate) mơ hình ngơn ngữ web text transctript Phương pháp đề xuất thể hình LM domain Text LM Web text Text domain2 LM domain n Final LM LM Conversation Text Conversation Conversation Hình 3-10 Phương pháp xây dựng mơ hình ngơn ngữ đề xuất 41 Giải thích    Từ nguồn text khác nhau, tiến hành xây dựng thành nhiều mơ hình ngơn ngữ khác tương ứng (LM_truyen, LM_phapluat,.LM_kinhte, LM_coversation ) Interpolate mơ hình ngơn ngữ xây dựng từ Web text (LM_truyen, LM_phapluat, ,LM_kinhte) thành mơ hình LM_web với hệ số mô hình thành phần Nội suy tuyến tính LM_web LM_conversation, chọn hệ số theo tối ưu PPL tập dev để mơ hình LM_final 3.4.3 Thực nghiệm a) Dữ liệu huấn luyện Dữ liệu dùng để huấn luyện mô hình ngơn ngữ liệu text tải từ báo khác Nguồn text phân loại theo nội dung, lĩnh vực khác như: kinh tế, trị, giáo dục, truyện Bảng 3-6, thể kích thước tập liệu PPL tập phát triển mơ hình ngơn ngữ 4-gram xây dựng từ tập liệu tương ứng Bảng 3- Kích thước tập liệu PPL tương ứng Size (MB) PPL on dev 200 67.0 Chinhtri 37 195 Truyện 3000 156.3 Congnghe 727 225.2 giaoduc 192 204.2 Kinhte 86 222.5 Phapluat 212 252.5 Thoisu 1300 183.3 Thegioi 109 295.6 Youtube (text hội thoại gán nhãn) 42 Biểu đồ tuơng quan PPL mô hình build từ tập test khác Hình 3-11 PPL mơ hình ngơn ngữ tập dev Nhìn vào biểu đồ ta thấy rõ, text hội thoại cho PPL tập dev nhỏ so với loại text khác Điều phù hợp với giả thuyết PPL bé chất lượng mơ hình với tập test tốt b Kết Để đánh giá chất lượng mơ hình ngơn ngữ, ta sử dụng chung mơ hình âm học (là mơ hình s5 trình bày mục trước) so sánh tỷ lệ lỗi tập test khác Bảng 3.10 kết giải mã tập test mơ hình là:  s51: Acoustic s5 + LM xây dựng từ text hội thoại  s52: Acoustic s5 + LM xây dựng từ LM xây dựng từ web LM xây dựng từ text gán nhãn  s53: Acoustic s5 + LM xây dựng từ phương pháp đề xuất Bảng 3-7 Tỷ lệ lỗi WER (%) theo phương pháp thử nghiệm VLSP2019 VLSP2018 MEETVOICENOTE INGNOTE s51 28.82 5.61 28.11 28.75 s52 29.49 5.35 29.67 31.53 s53 28.10 4.78 26.34 26.72 Nhìn vào bảng 3-7, ta thấy phương pháp xây dựng mơ hình ngơn ngữ đề xuất s53 giúp cải thiện đáng kể độ xác tập kiểm thử Với tập MEETINGNOTE cải thiện 6.3% so với dùng nguồn text gán nhãn không, tương tự tập VOICENOTE cải thiện 7.0%, tập VLSP2018 14.7% 43 3.5 Tổng kết Như chương 3, tác giả đề cập đến phương pháp đề xuất thử nghiệm để xây dựng hệ thống nhận dạng tiếng nói, đóng góp là:  Đề xuất xây phương án thu thập, gán nhãn , xây dựng sở liệu cho toán nhận dạng tiếng nói  Đề xuất huấn luyện mơ hình âm học ổn định với nhiễu phương pháp tổng qt hóa liệu mơ hình hóa loại nhiễu Phương pháp làm tăng chất lượng giải mã mơ hình âm học tập test, giảm 15% tỷ lệ lỗi so với mơ hình gốc huấn luyện với liệu gốc ban đầu  Đề xuất huấn luyện mơ hình ngơn ngữ cách nội suy tuyến tính mơ hình ngơn ngữ thuộc domain khác nhau, đem lại cải thiện 6-7% tương đối tập hội thoại Đến chương tiếp theo, tác giả tập trung vào việc tích hợp mơ hình vào sản phẩm bóc băng họp 44 CHƯƠNG 4: KẾT QUẢ TÍCH HỢP VÀO SẢN PHẨM Sau có mơ hình nhận dạng xây dựng từ phương pháp đề xuất chương 3, ta cần phải tiến hành tích hợp mơ hình vào sản phẩm Ở chương này, tác giả trình bày đôi nét giao diện sản phẩm hiệu bên mơ hình nhận dạng Đây kết tích hợp đội ngữ kỹ sư Viettel để tạo thành sản phẩm bóc băng hồn chỉnh 4.1 Giao diện sản phẩm Mơ hình nhận dạng tiếng nói tích hợp vào sản phẩm bóc băng họp Backend hệ thống triển khai server 128 GB RAM, 32 Core CPU Người dùng dùng phần mềm chế độ là:  Online: ghi âm trực tiếp từ micro trả kết theo thời gian thực Hình 4-1 Giao diện ghi âm trực tiếp  Offline: tải file âm sẵn có lên để bóc băng Hình 4-2 Giao diện giải mã file offline 45 4.2 Đánh giá chất lượng Phương pháp huấn luyện mơ hình nhận dạng đề xuất chương áp dụng để huấn luyện mơ hình nhận dạng cho sản phẩm bóc băng với 2500h liệu tiếng nói Kết dánh giá chất lượng mơ hình huấn luyện với 2500h thể bảng sau: Bảng 4-1 Tỷ lệ lỗi WER (%) tâp test mơ hình ASR tích hợp sản phẩm Mơ hình 200h (S53) Mơ hình 2500h VLSP2019 VLSP 2018 MEETINGNOTE VOICENOTE 29.49 5.35 29.67 31.53 19.00 3.60 13.00 19.12 Nhìn vào bảng 4-1, ta thấy tăng liệu huấn luyện từ 200h lên 2500h, chất lượng mơ hình tăng lên rõ rệt Các số kể đến tập MEETINGNOTE giảm 51.3% tương đối tỷ lệ lỗi, 26.9% với VOICENOTE Với chất lượng trên, sản phẩm áp dụng sản phẩm bóc băng họp nội Vitettel ban ngành 4.3 Đánh giá hiệu  Giải mã streaming 46 Hình 4-3 Thời gian đáp ứng streaming theo độ dài audio Nhìn vào hình 4-3 ta thấy, thời gian đáp ứng gần ổn định so với chiều dài audio, trễ khoảng 0.5s Hình 4-4 Dung lượng Ram dùng theo worker Nhìn vào hình 4-4 ta thấy dung lượng Ram mơ hình sử dụng (cỡ 1.8GB) gần độc lập với số lượng thread  Giải mã offline Hình 4.5, biểu diễn thời gian trả phụ thuộc vào số lượng thread tiến hành giải mã 8h audio Ta thấy, vịng 1s, thread decode khoảng 4s audio Số lượng thread tăng thời gian đáp ứng giảm tăng cảm lớn tốc độ trả tăng chậm 47 Hình 4-5 Thời gian trả theo số lượng thread 48 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Sau toàn trình thực luận văn này, tác giả đạt só kết sau:  Đề xuất quy trình thu thập, gán nhãn, xây dựng liệu lớn tiếng nói tiếng Việt, dùng sản phẩm thương mại Công việc thực tác giả thực với cộng tác đồng nghiệp Viettel  Đề xuất phương pháp cải thiện mơ hình âm học ổn định với nhiễu số kỹ thuật như: tổng quát hóa liệu, mơ hình hóa loại nhiễu  Đề xuất xây dựng mơ hình ngơn ngữ cho tốn hội thoại cách nội suy tuyến tính mơ hình từ lĩnh vực khác Các hướng phát triển luận văn:  Trích xuất phân loại thêm loại nhiễu dựa vào liệu thực tế người dùng  Nghiên cứu mơ hình end-to-end thay cho mơ hình Hybrid  Nghiên cứu tích hợp mơ hình ngơn ngữ dùng mạng nơ-ron vào hệ thống  Phát triển số công nghệ hỗ trợ như: Chỉ nhận dạng tiếng nói số người biết trước, phân tách tiếng nói kênh bị overlap 49 TÀI LIỆU THAM KHẢO [1] K Audhkhasi, B Ramabhadran, G Saon, M Picheny, and D Nahamoo, “Direct Acoustics-to-Word Models for English Conversational Speech Recognition,” ArXiv170307754 Cs Stat, Mar 2017, Accessed: Oct 14, 2020 [Online] Available: http://arxiv.org/abs/1703.07754 [2] J Wang et al., “Deep Extractor Network for Target Speaker Recovery From Single Channel Speech Mixtures,” ArXiv180708974 Cs Eess, Jul 2018, Accessed: Oct 14, 2020 [Online] Available: http://arxiv.org/abs/1807.08974 [3] S Araki et al., “Online meeting recognition in noisy environments with time-frequency mask based MVDR beamforming,” in 2017 Hands-free Speech Communications and Microphone Arrays (HSCMA), Mar 2017, pp 16–20, doi: 10.1109/HSCMA.2017.7895553 [4] N Tomashenko, “Speaker adaptation of deep neural network acoustic models using Gaussian mixture model framework in automatic speech recognition systems,” 2017 [5] F Metze et al., Models of Tone for Tonal and Non-Tonal Languages [6] Q B Nguyen, V H Do, B Q Dam, and M H Le, “Development of a Vietnamese speech recognition system for Viettel call center,” in 2017 20th Conference of the Oriental Chapter of the International Coordinating Committee on Speech Databases and Speech I/O Systems and Assessment (O-COCOSDA), Nov 2017, pp 1–5, doi: 10.1109/ICSDA.2017.8384456 [7] P Ghahremani, B BabaAli, D Povey, K Riedhammer, J Trmal, and S Khudanpur, “A pitch extraction algorithm tuned for automatic speech recognition,” in 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), May 2014, pp 2494–2498, doi: 10.1109/ICASSP.2014.6854049 [8] B S Lee and D P W Ellis, “Noise Robust Pitch Tracking by Subband Autocorrelation Classiﬁcation,” p [9] Talkin, D., A robust algorithm for pitch tracking (RAPT) 1995 [10] Mingyang Wu, DeLiang Wang, and G J Brown, “A multipitch tracking algorithm for noisy speech,” IEEE Trans Speech Audio Process., vol 11, no 3, pp 229–241, May 2003, doi: 10.1109/TSA.2003.811539 [11] E Frazzoli, “16.410 Lecture 21: Intro to Hidden Markov Models the Baum-Welch algorithm,” p 24 [12] H Bourlard and C J Wellekens, “Links Between Markov Models and Multilayer Perceptrons,” in Advances in Neural Information Processing Systems 1, D S Touretzky, Ed Morgan-Kaufmann, 1989, pp 502–510 [13] N Morgan and H Bourlard, “Continuous speech recognition using multilayer perceptrons with hidden Markov models,” in International Conference 50 on Acoustics, Speech, and Signal Processing, Apr 1990, pp 413–416 vol.1, doi: 10.1109/ICASSP.1990.115720 [14] H Bourlard, N Morgan, C Wooters, and S Renals, “CDNN: a context dependent neural network for continuous speech recognition,” in [Proceedings] ICASSP-92: 1992 IEEE International Conference on Acoustics, Speech, and Signal Processing, Mar 1992, vol 2, pp 349–352 vol.2, doi: 10.1109/ICASSP.1992.226048 [15] G E Dahl, D Yu, L Deng, and A Acero, “Large vocabulary continuous speech recognition with context-dependent DBN-HMMS,” in 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), May 2011, pp 4688–4691, doi: 10.1109/ICASSP.2011.5947401 [16] G Hinton et al., “Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups,” IEEE Signal Process Mag., vol 29, no 6, pp 82–97, Nov 2012, doi: 10.1109/MSP.2012.2205597 [17] D Yu, L Deng, and G E Dahl, “Roles of Pre-Training and Fine-Tuning in Context-Dependent DBN-HMMs for Real-World Speech Recognition,” Dec 2010, Accessed: Oct 15, 2020 [Online] Available: https://www.microsoft.com/en-us/research/publication/roles-of-pre-training-andfine-tuning-in-context-dependent-dbn-hmms-for-real-world-speech-recognition/ [18] A Waibel, T Hanazawa, G Hinton, K Shikano, and K J Lang, “Phoneme recognition using time-delay neural networks,” IEEE Trans Acoust Speech Signal Process., vol 37, no 3, pp 328–339, Mar 1989, doi: 10.1109/29.21701 [19] L Bottou, F Fogelman Soulié, P Blanchet, and J S Liénard, “Speakerindependent isolated digit recognition: Multilayer perceptrons vs Dynamic time warping,” Neural Netw., vol 3, no 4, pp 453–465, Jan 1990, doi: 10.1016/0893-6080(90)90028-J [20] I Guyon, P Albrecht, Y Le Cun, J Denker, and W Hubbard, “Design of a neural network character recognizer for a touch terminal,” Pattern Recognit., vol 24, no 2, pp 105–119, Jan 1991, doi: 10.1016/0031-3203(91)90081-F [21] D Povey et al., “Purely Sequence-Trained Neural Networks for ASR Based on Lattice-Free MMI,” 2016, doi: 10.21437/Interspeech.2016-595 [22] Hochreiter, Sepp and Schmidhuber, “Long short-term memory,” pp 1735–1780, 1997 [23] K Li, H Xu, Y Wang, D Povey, and S Khudanpur, “Recurrent Neural Network Language Model Adaptation for Conversational Speech Recognition,” 2018, doi: 10.21437/Interspeech.2018-1413 [24] T Hori, J Cho, and S Watanabe, “End-to-end Speech Recognition With Word-Based Rnn Language Models,” in 2018 IEEE Spoken Language Technology Workshop (SLT), Dec 2018, pp 389–396, doi: 10.1109/SLT.2018.8639693 51 [25] S Katz, “Estimation of probabilities from sparse data for the language model component of a speech recognizer,” IEEE Trans Acoust Speech Signal Process., vol 35, no 3, pp 400–401, Mar 1987, doi: 10.1109/TASSP.1987.1165125 [26] H Ney, U Essen, and R Kneser, “On structuring probabilistic dependences in stochastic language modelling,” Comput Speech Lang., vol 8, no 1, pp 1–38, Jan 1994, doi: 10.1006/csla.1994.1001 [27] R Kneser and H Ney, “Improved backing-off for M-gram language modeling,” in 1995 International Conference on Acoustics, Speech, and Signal Processing, May 1995, vol 1, pp 181–184 vol.1, doi: 10.1109/ICASSP.1995.479394 [28] P F Brown, V J D Pietra, P V deSouza, J C Lai, and R L Mercer, “Class-Based N-Gram Models of Natural Language,” Comput Linguist., vol 18, pp 18–4, 1990 [29] S Martin, J Liermann, and H Ney, “Algorithms for bigram and trigram word clustering1This paper is based on a communication presented at the ESCA Conference EUROSPEECH’95 and has been recommended by the EUROSPEECH’95 Scientific Committee.1,” Speech Commun., vol 24, no 1, pp 19–37, Apr 1998, doi: 10.1016/S0167-6393(97)00062-9 [30] S Young et al., The HTK Book (version 3.5a) 2015 [31] D Povey et al., “The Kaldi speech recognition toolkit,” IEEE 2011 Workshop Autom Speech Recognit Underst., Jan 2011 [32] S H K Parthasarathi, B Hoffmeister, S Matsoukas, A Mandal, N Strom, and S Garimella, “fMLLR based feature-space speaker adaptation of DNN acoustic models,” 2015 [33] D Povey, P C Woodland, and M J F Gales, “Discriminative map for acoustic model adaptation,” in 2003 IEEE International Conference on Acoustics, Speech, and Signal Processing, 2003 Proceedings (ICASSP ’03)., Apr 2003, vol 1, p I–I, doi: 10.1109/ICASSP.2003.1198780 [34] S Xue, O Abdel-Hamid, H Jiang, L Dai, and Q Liu, “Fast Adaptation of Deep Neural Network Based on Discriminant Codes for Speech Recognition,” IEEEACM Trans Audio Speech Lang Process., vol 22, no 12, pp 1713–1725, Dec 2014, doi: 10.1109/TASLP.2014.2346313 [35] T Ko, V Peddinti, D Povey, and S Khudanpur, “Audio augmentation for speech recognition,” 2015 [36] T Ko, V Peddinti, D Povey, M L Seltzer, and S Khudanpur, “A study on data augmentation of reverberant speech for robust speech recognition,” in 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Mar 2017, pp 5220–5224, doi: 10.1109/ICASSP.2017.7953152 [37] V H Do, X Xiao, V Hautam̈aki, and E Chng, “Speech attribute recognition using context-dependent modeling,” pp 739–743, Jan 2011 52 53 ... TỔNG QUAN PHẦN MỀM GHI BIÊN BẢN HỌP VÀ KHẢO SÁT CÁC SẢN PHẨM NHẬN DẠNG TIẾNG NÓI 1.1 Tổng quan phần mềm 1.1.1 Tính phần mềm Phần mềm ghi biên họp tên gọi phần mềm hỗ trợ ghi âm họp, nói chuyện... cứu, ứng dụng sản phẩm nhận dạng tiếng nói nước giới Những chương tập trung vào làm rõ công nghệ nhận dạng tiếng nói cách để xây dựng hệ thống nhận dạng tiếng nói tiếng Việt tích hợp phần mềm ghi. .. tài: Nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng Việt ứng dụng cho phần mềm ghi biên họp Tên tiếng Anh : Automatic speech recognition for meeting note software b Mục tiêu đề tài:  Xây

Định dạng
Số trang	64
Dung lượng	1,69 MB