Cải tiến trong đoán định văn bản của mô hình nhận diện tiếng nói trực tiếp

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - NGHIÊM NGUYỄN VIỆT DŨNG CẢI TIẾN TRONG ĐỐN ĐỊNH VĂN BẢN CỦA MƠ HÌNH NHẬN DIỆN TIẾNG NÓI TRỰC TIẾP LUẬN VĂN THẠC SĨ KHOA HỌC KHOA HỌC MÁY TÍNH Hà Nội – Năm 2018 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - NGHIÊM NGUYỄN VIỆT DŨNG CẢI TIẾN TRONG ĐOÁN ĐỊNH VĂN BẢN CỦA MƠ HÌNH NHẬN DIỆN TIẾNG NĨI TRỰC TIẾP Chuyên ngành: KHOA HỌC MÁY TÍNH LUẬN VĂN THẠC SĨ KHOA HỌC KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS ĐỖ PHAN THUẬN Hà Nội – Năm 2018 Đại học Bách Khoa Hà Nội Luận văn thạc sỹ khoa học máy tính Cải tiến đốn định văn mơ hình nhận diện tiếng nói trực tiếp Học viên: Nghiêm Nguyễn Việt Dũng Giảng viên hướng dẫn: PGS Ts Đỗ Phan Thuận Ngày 21 tháng năm 2018 HV: NGHIÊM NGUYỄN VIỆT DŨNG Lời cam đoan KHMT-2016B HV: NGHIÊM NGUYỄN VIỆT DŨNG KHMT-2016B Lời cảm ơn Đầu tiên, em xin bày tỏ lòng biết ơn chân thành đến thầy Đỗ Phan Thuận, người tận tình hướng đẫn tạo điều kiện cho em hoàn thành tốt luận văn tốt nghiệp Em xin cảm ơn dạy dỗ bảo tận tình tất q thầy trường Đại học Bách Khoa Hà Nội Tất kiến thức mà em thu hành trang quý giá đường học tập, làm việc nghiên cứu sau Xin trân trọng cảm ơn! Hà Nội, tháng năm 2018 Học viên Nghiêm Nguyễn Việt Dũng HV: NGHIÊM NGUYỄN VIỆT DŨNG KHMT-2016B Mục lục Từ điển giải Danh sách hình vẽ Danh sách bảng Mở đầu Tổng quan 1.1 Hệ thống nhận dạng tiếng nói 1.2 Các hướng tiếp cận 1.3 Mơ hình ngơn ngữ nhận dạng 1.4 Các thách thức tiếng Mơ hình nhận dạng tiếng nói trực tiếp 2.1 Tổng quan 2.1.1 Mơ hình CTC 2.1.2 Mơ hình RNN-Transducer 2.1.3 Mơ hình Attention 2.1.4 Nhận xét đánh giá 2.2 Mơ hình nhận dạng tiếng nói trực tiếp sử 2.2.1 Kiến trúc mơ hình 2.2.2 Hàm CTC loss 2.2.3 Khối đoán định văn 2.3 Tiềm ứng dụng Tiếng Việt nói dụng CTC Thuật toán kỹ thuật đề xuất 3.1 Thuật toán Prefix Beam Search 3.2 Chuẩn hóa k phương thức tính tốn 3.3 Kỹ thuật cắt nhánh 3.4 Mơ hình ngôn ngữ n-gram kết hợp tiền tố 11 12 15 16 17 20 20 21 23 24 26 28 28 30 31 32 33 33 36 39 40 HV: NGHIÊM NGUYỄN VIỆT DŨNG Kết 4.1 4.2 4.3 4.4 thực nghiệm Thiết lập thí nghiệm Độ xác thuật tốn Prefix Beam Search Kết cải tiến bước cắt nhánh Kết cải tiến mơ hình ngơn ngữ KHMT-2016B 43 43 44 45 48 Kết luận hướng phát triển 50 Tài liệu tham khảo 52 HV: NGHIÊM NGUYỄN VIỆT DŨNG KHMT-2016B Từ điển giải Ký hiệu Thuật ngữ Tạm dịch ASR Automatic Speech Recognition Nhận dạng tiếng nói tự động DTW Dynamic Time Warping Nắn chỉnh thời gian động LVCSR Large Vocabulary Continuous Speech Recognition PBS Prefix Beam Search Algorithm Thuật tốn tìm kiếm tiền tố beam WER Word Error Rate Tỷ lệ lỗi nhận dạng từ Bài tốn nhận dạng tiếng nói liên tục với từ vựng lớn Trong luận văn này, số thuật ngữ dù có tạm dịch tiếng Việt dùng tiếng Anh tính xác quốc tế HV: NGHIÊM NGUYỄN VIỆT DŨNG KHMT-2016B Danh sách hình vẽ 1.1 Các thành phần hệ thống ASR 13 2.1 2.2 2.3 2.4 Mơ hình CTC Mơ hình RNN-Transducer Mơ hình Attention Kiến trúc mơ hình thử nghiệm 3.1 Cây biểu diễn mơ hình ngơn ngữ tiền tố 41 4.1 4.2 4.3 4.4 Biểu Biểu Biểu Biểu đồ đồ đồ đồ hiệu hiệu hiệu hiệu quả quả tính tốn phương pháp cắt nhánh tìm kiếm phương pháp cắt nhánh khơng gian tìm kiếm kết hợp hai cải tiến thời gian tính kết hợp hai cải tiến 22 24 25 29 46 47 49 49 HV: NGHIÊM NGUYỄN VIỆT DŨNG KHMT-2016B Danh sách bảng 2.1 So sánh mơ hình huấn luyện trực tiếp mơ hình dựa HMM 26 4.1 4.2 4.3 4.4 Sai số thuật toán Prefix Beam Search với k bé Kết giải thuật PBS Kết giải thuật PBS chuẩn hóa k Kết tỷ lệ từ lỗi mơ hình ngơn ngữ mơ hình ngơn ngữ kết hợp tiền tố 44 45 45 48 HV: NGHIÊM NGUYỄN VIỆT DŨNG KHMT-2016B t tương ứng với đoạn chương trình từ dịng tới dịng 30 thuật tốn PBS 3.1 Algorithm 3.5 Giải thuật tìm Anext sử dụng mơ hình ngơn ngữ kết hợp tiền tố 1: Anext ← { } 2: for l in Aprev 3: for c in 4: if c = blank then 5: pb (l; x1:t ) ← p(blank; xt )(pb (l; x1:t−1 ) + pnb (l; x1:t−1 )) 6: Thêm l vào Anext 7: else 8: l+ ← nối l với c 9: if c = lend then 10: pnb (l+ ; x1:t ) += p(c; xt )pb (l; x1:t−1 ) 11: pnb (l; x1:t ) += p(c; xt )pnb (l; x1:t−1 ) 12: else if c = space then 13: pnb (l+ ; x1:t ) += plm (W (l+ )|W (l))α /plmla (W (l))γ 14: ×(p(c; xt )(pb (l; x1:t−1 ) + pnb (l; x1:t−1 )) 15: else 16: pnb (l+ ; x1:t ) += plmla (W (l+ ))γ /plmla (W (l))γ 17: p(c; xt )((pb (l; x1:t−1 ) + pnb (l; x1:t−1 )) 18: end if 19: if l+ not in Aprev then 20: pb (l+ ; x1:t ) ← p(blank; xt )(pb (l+ ; x1:t−1 ) + pnb (l+ ; x1:t−1 )) 21: pnb (l+ ; x1:t ) += p(c; xt )pb (l+ ; x1:t−1 ) 22: end if 23: Thêm l+ vào Anext 24: end if 25: end for 26: end for 42 HV: NGHIÊM NGUYỄN VIỆT DŨNG KHMT-2016B Chương Kết thực nghiệm 4.1 Thiết lập thí nghiệm Mơ hình nhận dạng tiếng nói huấn luyện tập liệu huấn luyện Librispeech [24] kích cỡ tương đương 300 đọc Nhãn đầu chuỗi ký tự thuộc tập có 26 chữ cái, ký tự trắng dấu lược (apostrophe) Bộ liệu dùng luận văn lấy từ hai tập liệu test dễ (clean) khó (other) Librispeech Trong đó, 400 tệp lấu ngẫu nhiên làm tập kiểm chứng (validation set) để xác định tham số Các tham số sử dụng thực nghiệm gồm: α = 3.2, β = 10.0, γ = 1.6, = 0.001, cặp giá trị (fbp , k) Quá trình đánh giá sử dụng hai dễ khó khác nhau, có 200 tệp riêng biệt với tệp kiểm chứng Đối với mơ hình ngơn ngữ n-gram, chúng tơi sử dụng thư viện KenLM [25] huấn luyện mơ hình ngôn ngữ 5-gram với kỹ thuật Kneser-Ney smoothing cho tập liệu One Billion Word[26] Với mơ hình ngơn ngữ n-gram tiền tố, sử dụng kỹ thuật back-off với tham số lamda = 0.2 cho mơ hình tiền tố 2-gram huấn luyện tập Brown[27] Việc đánh giá giải thuật cải tiến tập trung vào ba tiêu chí độ xác, độ phức tạp tính tốn khơng gian tìm kiếm Với độ xác, đo Word Error 43 HV: NGHIÊM NGUYỄN VIỆT DŨNG KHMT-2016B Rate (WER - tỷ lệ từ lỗi) số lượng từ nhận diện tổng số từ Độ phức tạp đánh giá qua thời gian chạy chương trình cịn khơng gian tìm kiếm thể qua tổng số lượng tiền tố phải lưu trữ trình tìm kiếm 4.2 Độ xác thuật tốn Prefix Beam Search Công thức sai số tương đối xác suất đầu mơ hình P BS tính thuật tốn Prefix Beam Search giá âm học Pnet T rue trị chuẩn Pnet tính thuật tốn 3.2: σ = 100% × P BS T rue − Pnet Pnet T rue Pnet (4.1) K 10 50 200 Sai số tương đối trung bình (%) Sai số tương đối lớn (%) 43.9 99.7 17.7 55.1 9.9 46.1 Bảng 4.1: Sai số thuật toán Prefix Beam Search với k bé Từ bảng 4.2, ta thấy sai số trung bình lớn k bé Từ mức 9.9% k=200 tới mức 43.9% k=10 cho thấy k bé có nhiều khả tiền tố sâu kết bị loại bỏ tăng lên trình tìm kiếm Qua q trình tính tích lũy dẫn đến xác suất kết chênh lệch lớn so với xác suất chuẩn Một điểm khác phản ánh bảng 4.2 sai số trường hợp tồi cao kể với k lớn (45.1% k=200) Điều hiểu trường hợp q trình tìm kiếm có thời điểm xác suất tiền tố sâu kết thấp khiến cho giữ lại phần nhỏ tiền tố Nói 44 HV: NGHIÊM NGUYỄN VIỆT DŨNG KHMT-2016B cách khác, phương án tối ưu rơi vào phần biên lưới tìm kiếm (ở cuối danh sách tiền tố tốt nhất), thuật toán PBS giữ lại đến hai tiền tố phương án tối ưu dẫn tới sai số tích lũy từ thời điểm tới trở lại phần lưới Từ kết thực nghiệm, ta kết luận thuật tốn PBS ban đầu đưa Pnet có sai số lớn k bé k phải đặt lớn số lượng phương án thực tìm kiếm để phương án tối ưu không rơi vào biên 4.3 Kết cải tiến bước cắt nhánh Đánh giá giải thuật PBS chuẩn hóa k Bảng 4.2: Kết giải thuật PBS Thời gian (giây) Khơng gian tìm kiếm WER Beam Width 37.4 75.5 111.4 147.6 7,354,501 14,669,856 22,044,380 29,364,306 29.4 26.0 25.3 25.0 50 100 150 200 Bảng 4.3: Kết giải thuật PBS chuẩn hóa k Thời gian (giây) Khơng gian tìm kiếm WER Beam Width 56.9 112.8 168.9 231.4 11,304,318 22,125,963 32,867,550 43,528,136 28.9 25.5 24.5 24.5 50 100 150 200 Bảng 4.3 4.3 cho thấy kết thực nghiệm thuật toán PBS ban đầu PBS có chuẩn hóa k ( = 0.001) với beam 45 HV: NGHIÊM NGUYỄN VIỆT DŨNG KHMT-2016B Tỷ lệ từ lỗi (%) width khác tập liệu khó Điểm nhận thấy dùng mơ hình ngơn ngữ nên khơng gian tìm kiếm tỷ lệ tuyến tính với thời gian tính chương trình Trung bình giây, chương trình tính lưu trữ cỡ 200,000 tiền tố Điểm thứ hai rút từ hai bảng thay đổi tỷ lệ khơng gian tìm kiếm hai thuật tốn beam width khác Với việc tăng thêm từ 65% đến 70% số lượng tiền tố, thuật tốn PBS chuẩn hóa k cho thấy số lượng tiền tố trung bình cần bổ sung để đạt độ xác 1% Trong hướng phát triển tiếp theo, việc nghiên cứu phân bố xác suất tiền tố cần thiết cho chứng minh độ phức tạp tính tốn lý thuyết thuật tốn PBS PBS chuẩn hóa k Cắt kết hợp 28 26 24 20 40 60 80 100 120 140 160 180 200 220 Thời gian tính tốn (giây) Hình 4.1: Biểu đồ hiệu tính tốn phương pháp cắt nhánh Ở biểu đồ 4.1 cho thấy mối quan hệ thời gian chạy chương trình tỷ lệ từ lỗi Ở khoảng thời gian 120 giây, thuật tốn PBS có hiệu thuật tốn chuẩn hóa việc thêm tiền tố khác tốt việc bổ sung tiền tố phụ để tính xác tiền tố có Tuy nhiên, việc tính xác xác suất tiền tố giúp cho tăng beam width giúp cho giải thuật chuẩn hóa k đạt độ xác cao Trong đó, thuật 46 HV: NGHIÊM NGUYỄN VIỆT DŨNG KHMT-2016B tốn cắt kết hợp cho thấy hiệu so với hai phương pháp đặc biệt cho khối lượng tính tốn thấp Biểu đồ 4.3 có thấy kết tương tự mối quan hệ tuyến tính thời gian khối lượng tìm kiếm Tỷ lệ từ lỗi (%) 29 Cắt nhánh kết hợp PBS chuẩn hóa k PBS 28 27 26 25 Số lượng tiền tố ·107 Hình 4.2: Biểu đồ hiệu tìm kiếm phương pháp cắt nhánh 47 HV: NGHIÊM NGUYỄN VIỆT DŨNG 4.4 KHMT-2016B Kết cải tiến mơ hình ngơn ngữ Bảng 4.4 cho thấy tỷ lệ WER hai mơ hình ngơn ngữ: mơ hình 5-gram mơ hình 5-gram có kết hợp tiền tố sử dụng histogram pruning với beam width khác Phương pháp histogram pruning chọn khối lượng tính tốn cố định dù dùng mơ hình ngơn ngữ Do đó, thời gian tính tốn gần tương đương Bảng 4.4: Kết tỷ lệ từ lỗi mơ hình ngơn ngữ mơ hình ngơn ngữ kết hợp tiền tố Beam width Mơ hình 50 100 500 1000 5-gram 27.3 24.8 17.0 15.1 5-gram với mơ hình tiền tố 20.1 17.5 14.4 13.6 Bảng kết 4.4 cho thấy cải thiện đáng kể tất beam width khác Điều chứng minh khả loại bỏ nhánh khơng khả thi từ sớm mơ hình ngơn ngữ kết hợp tiền tố Tuy nhiên thấy, đặc biệt hiệu beam width thấp Ở mức beam width 1000, mô hình kết hợp tiền tố cải thiện 10% (từ 15.1% xuống 13.6%) mức 50, mức cải thiện đạt xấp xỉ 26% (từ 27.3% xuống 20.1%) Có tượng beam width đủ lớn mơ hình ngơn ngữ thơng thường có phương án chấp nhận khơng khác nhiều so với mơ hình ngơn ngữ kết hợp tiền tố Khi kết hợp cải tiến cắt nhánh kết hợp mơ hình ngơn ngữ, ta có thuật tốn tốt khơng gian tìm kiếm lẫn thời gian tính Ở test dễ với thời gian tính tốn đủ lâu, độ xác tổng hợp hai cải tiến giúp cải thiện từ 5% tới 10% so với với giải thuật đơn cải tiến từ 15% đến 20% so với giải thuật PBS ban đầu 48 HV: NGHIÊM NGUYỄN VIỆT DŨNG KHMT-2016B Tổng hợp cải tiến 26 Word error rate Cải tiến cắt nhánh 24 Cải tiến ngôn ngữ PBS 22 20 18 16 14 Số lượng tiền tố tìm ·10 Hình 4.3: Biểu đồ hiệu khơng gian tìm kiếm kết hợp hai cải tiến Hai biểu đồ cho thấy hiệu tổng hợp cải tiến phương diện khối lượng tính tốn khơng cao hiệu tìm kiếm đường giải thuật tổng hợp sát so với hai đường cịn lại Điều giải thích khối lượng tính tốn thêm vào để cập nhật mơ hình ngơn ngữ tiền tố bước Tổng hợp cải tiến Word error rate Cải tiến cắt nhánh 25 Cải tiến ngôn ngữ PBS 20 15 20 40 60 80 100 120 Thời gian tính (giây) Hình 4.4: Biểu đồ hiệu thời gian tính kết hợp hai cải tiến 49 HV: NGHIÊM NGUYỄN VIỆT DŨNG KHMT-2016B Kết luận hướng phát triển Đóng góp luận văn đưa phương thức tìm kiếm tiền tố beam khống chế sai số cho xác suất đầu đặc biệt với trường hợp độ rộng beam (k) nhỏ Ngoài ra, giải thuật đề xuất chuẩn hóa tham số k trở thành số lượng lời giải giữ lại tìm kiếm; điều giúp giải thuật áp dụng phương pháp cắt nhánh rõ ràng hiệu Sau đó, tác giả áp dụng kỹ thuật sử dụng tìm kiếm beam để nâng cao tính xác hiệu tìm kiếm Bên cạnh đó, chúng tơi đề xuất giải thuật có khả áp dụng mơ hình ngơn ngữ kết hợp tiền tố giúp nhanh chóng loại bỏ nhánh khơng thỏa mãn trình tìm kiếm beam Kết thử nghiệm tập liệu chuẩn cho thấy thuật tốn đề xuất chúng tơi cho kết đánh giá tốt độ xác thời gian tính tốn so với thuật tốn ban đầu liệu thử nghiệm Những kết hứa hẹn khả phát triển cho bước đoạn định văn mơ hình nhận diện tiếng nói trực tiếp Hiện tại, khai thác sơ qua kỹ thuật tìm kiếm tìm kiếm beam kết hợp đơn giản mơ hình ngơn ngữ n-gram với tiền tố Các nghiên cứu tiếp tục thứ nghiệm giải thuật tìm kiếm khác cách kết hợp nhiều loại mơ hình ngơn ngữ khác Với tính chất khối lượng Luận văn tốt nghiệp, chắn tác giả khó tránh khỏi thiếu sót, hạn chế việc trình bày giải pháp kiến nghị Vì vậy, tác giả mong 50 HV: NGHIÊM NGUYỄN VIỆT DŨNG KHMT-2016B nhận nhiều ý kiến đóng góp thầy cô giáo, bạn bè đồng nghiệp để đề tài có điều kiện hồn thiện 51 HV: NGHIÊM NGUYỄN VIỆT DŨNG KHMT-2016B Tài liệu tham khảo [1] Dario Amodei, Sundaram Ananthanarayanan, Rishita Anubhai, Jingliang Bai, Eric Battenberg, Carl Case, Jared Casper, Bryan Catanzaro, Qiang Cheng, Guoliang Chen, Jie Chen, Jingdong Chen, Zhijie Chen, Mike Chrzanowski, Adam Coates, Greg Diamos, Ke Ding, Niandong Du, Erich Elsen, Jesse Engel, Weiwei Fang, Linxi Fan, Christopher Fougner, Liang Gao, Caixia Gong, Awni Hannun, Tony Han, Lappi Vaino Johannes, Bing Jiang, Cai Ju, Billy Jun, Patrick LeGresley, Libby Lin, Junjie Liu, Yang Liu, Weigao Li, Xiangang Li, Dongpeng Ma, Sharan Narang, Andrew Ng, Sherjil Ozair, Yiping Peng, Ryan Prenger, Sheng Qian, Zongfeng Quan, Jonathan Raiman, Vinay Rao, Sanjeev Satheesh, David Seetapun, Shubho Sengupta, Kavya Srinet, Anuroop Sriram, Haiyuan Tang, Liliang Tang, Chong Wang, Jidong Wang, Kaifu Wang, Yi Wang, Zhijian Wang, Zhiqian Wang, Shuang Wu, Likai Wei, Bo Xiao, Wen Xie, Yan Xie, Dani Yogatama, Bin Yuan, Jun Zhan, and Zhenyao Zhu Deep speech 2: End-to-end speech recognition in english and mandarin In Proceedings of the 33rd International Conference on International Conference on Machine Learning - Volume 48, ICML’16, pages 173–182 JMLR.org, 2016 [2] Liang Lu, Xingxing Zhang, and Steve Renais On training the recurrent neural network encoder-decoder for large vocabulary end-to-end speech recognition In Acoustics, 52 HV: NGHIÊM NGUYỄN VIỆT DŨNG KHMT-2016B Speech and Signal Processing (ICASSP), 2016 IEEE International Conference on, pages 5060–5064 IEEE, 2016 [3] William Chan, Navdeep Jaitly, Quoc Le, and Oriol Vinyals Listen, attend and spell: A neural network for large vocabulary conversational speech recognition In Acoustics, Speech and Signal Processing (ICASSP), 2016 IEEE International Conference on, pages 4960–4964 IEEE, 2016 [4] Rohit Prabhavalkar, Kanishka Rao, Tara N Sainath, Bo Li, Leif Johnson, and Navdeep Jaitly A Comparison of sequence-to-sequence models for speech recognition In Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH, volume 2017-Augus, pages 939–943, 2017 [5] Hiroaki Sakoe and Seibi Chiba Readings in speech recognition chapter Dynamic Programming Algorithm Optimization for Spoken Word Recognition, pages 159–165 Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 1990 [6] Xuedong Huang, James Baker, and Raj Reddy A Historical Perspective of Speech Recognition Commun ACM, 57(1):94–103, 2014 [7] Alex Graves, Santiago Fernỏndez, Faustino Gomez, and Jă urgen Schmidhuber Connectionist temporal classification Proceedings of the 23rd international conference on Machine learning - ICML ’06, pages 369–376, 2006 [8] Theodore Bluche, Hermann Ney, Jerome Louradour, and Christopher Kermorvant Framewise and ctc training of neural networks for handwriting recognition In Proceedings of the 2015 13th International Conference on Document Analysis and Recognition (ICDAR), ICDAR ’15, pages 81– 85, Washington, DC, USA, 2015 IEEE Computer Society 53 HV: NGHIÊM NGUYỄN VIỆT DŨNG KHMT-2016B [9] Awni Y Hannun, Carl Case, Jared Casper, Bryan Catanzaro, Greg Diamos, Erich Elsen, Ryan Prenger, Sanjeev Satheesh, Shubho Sengupta, Adam Coates, and Andrew Y Ng Deep speech: Scaling up end-to-end speech recognition CoRR, abs/1412.5567, 2014 [10] Jan Chorowski, Dzmitry Bahdanau, Dmitriy Serdyuk, KyungHyun Cho, and Yoshua Bengio Attention-based models for speech recognition CoRR, abs/1506.07503, 2015 [11] Albert Zeyer, Kazuki Irie, Ralf Schlă uter, and Hermann Ney Improved training of end-to-end attention models for speech recognition CoRR, abs/1805.03294, 2018 [12] Alex Graves, Abdel-rahman Mohamed, and Geoffrey E Hinton Speech recognition with deep recurrent neural networks CoRR, abs/1303.5778, 2013 [13] Eric Battenberg, Jitong Chen, Rewon Child, Adam Coates, Yashesh Gaur, Yi Li, Hairong Liu, Sanjeev Satheesh, David Seetapun, Anuroop Sriram, and Zhenyao Zhu Exploring neural transducers for end-to-end speech recognition CoRR, abs/1707.07413, 2017 [14] Daniel Povey, Vijayaditya Peddinti, Daniel Galvez, Pegah Ghahremani, Vimal Manohar, Xingyu Na, Yiming Wang, and Sanjeev Khudanpur Purely sequence-trained neural networks for asr based on lattice-free mmi In Interspeech, pages 2751–2755, 2016 [15] Abdel-rahman Mohamed, George Dahl, and Geoffrey Hinton Deep belief networks for phone recognition In Nips workshop on deep learning for speech recognition and related applications, volume 1, page 39 Vancouver, Canada, 2009 54 HV: NGHIÊM NGUYỄN VIỆT DŨNG KHMT-2016B [16] Yann LeCun, Lộon Bottou, Genevieve B Orr, and KlausRobert Mă uller Efficient backprop In Neural Networks: Tricks of the Trade - Second Edition, pages 9–48 2012 [17] Luong Chi Mai and Dang Ngoc Duc Design of vietnamese speech corpus and current status In Proceedings of the International Symposium on Chinese Spoken Language Processing (ISCSLP), volume 6, pages 748–758, 2006 [18] Andrew L Maas, Awni Y Hannun, Daniel Jurafsky, and Andrew Y Ng First-pass large vocabulary continuous speech recognition using bi-directional recurrent dnns CoRR, abs/1408.2873, 2014 [19] Manuel Blum, Robert W Floyd, Vaughan Pratt, Ronald L Rivest, and Robert E Tarjan Time bounds for selection Journal of Computer and System Sciences, 7(4):448–461, 1973 [20] Hugo Van Hamme and Filip Van Aelten An adaptive-beam pruning technique for continuous speech recognition In Fourth International Conference on Spoken Language Processing, 1996 [21] Janne Pylkkonen New pruning criteria for efficient decoding Proceedings of the 9th European Conference on Speech Communication and Technology, pages 581–584, 2005 [22] B H Tran y H Ney V Steinbiss Improvements in Beam Search Proc of the International Conference on Spoken Language Processing (ICSLP), (July 2014):2140–2143, 1994 [23] Stefan Ortmanns, Hermann Ney, and Andreas Eiden Language-model look-ahead for large vocabulary speech 55 HV: NGHIÊM NGUYỄN VIỆT DŨNG KHMT-2016B recognition In Spoken Language, 1996 ICSLP 96 Proceedings., Fourth International Conference on, volume 4, pages 2095–2098 IEEE, 1996 [24] Vassil Panayotov, Guoguo Chen, Daniel Povey, and Sanjeev Khudanpur Librispeech: An ASR corpus based on public domain audio books, 2015 [25] Kenneth Heafield Kenlm: Faster and smaller language model queries In Proceedings of the Sixth Workshop on Statistical Machine Translation, WMT ’11, pages 187–197, Stroudsburg, PA, USA, 2011 Association for Computational Linguistics [26] Ciprian Chelba, Tomas Mikolov, Mike Schuster, Qi Ge, Thorsten Brants, and Phillipp Koehn One billion word benchmark for measuring progress in statistical language modeling CoRR, abs/1312.3005, 2013 [27] W Nelson Francis and Henry Kucera The Brown Corpus: A Standard Corpus of Present-Day Edited American English, 1979 56 ... nhiều vào phát triển mơ hình nhận dạng tiếng nói trực tiếp Vì ý nghĩa đồng ý Thầy PGS.TS Đỗ Phan Thuận, tơi chọn đề tài "Cải tiến đốn định văn mơ hình nhận dạng tiếng nói trực tiếp" thực với mong... Mơ hình dùng để so sánh mơ hình tốt không sử dụng huấn luyện trực tiếp mà mơ hình sử dụng HMM [14, 15] Bảng 2.1: So HMM Mô Mô Mô Mô Mơ sánh mơ hình huấn luyện trực tiếp mơ hình dựa hình hình hình. .. phương pháp tiếng Việt 2.1 Tổng quan Trong phần này, đánh giá cụ thể số mạng neural huấn luyện trực tiếp (end-to-end trained) cho tốn nhận dạng tiếng nói Những mạng nhận dạng tiếng nói trực tiếp có

Định dạng
Số trang	59
Dung lượng	525,82 KB