Nâng cao chất lượng nhận dạng giọng nói

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	9
Dung lượng	643,74 KB

Nội dung

Nhận diện giọng nói đã được biết đến hàng thập kỷ, tuy nhiên khó khăn cơ bản của nhận dạng tiếng nói đó là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữa tiếng nói của những người nói khác nhau, tốc độ nói, ngữ cảnh và môi trường âm học khác nhau. Sự ra đời của Deep Learning đã giúp nhận diện giọng nói chính xác, thậm chí ở ngoài môi trường phòng lab. Bài viết sử dụng công nghệ Kaldi để tăng cường chất lượng nhận dạng giọng nói, kết quả mô phỏng cho thầy giọng nói được nhận dạng chính xác hơn.

NÂNG CAO CHẤT LƯỢNG NHẬN DẠNG GIỌNG NÓI Nguyễn Đức Huy Kỹ sư công ty công nghệ Pitagon Email: thebestkid963@gmail.com Th.S Chế Thị Hằng Trường ĐH Kinh Doanh & Công Nghệ Hà Nội Email: chehang90@hubt.edu.com Th.S Nguyễn Vân Anh Trường ĐH Kinh Doanh & Công Nghệ Hà Nội Email: nguyenvananhhubt88@gmail.com Ngày tòa soạn nhận báo:13/09/2020 Ngày phản biện đánh giá: 20/09/2020 Ngày báo duyệt đăng:29/09/2020 Tóm tắt: Nhận diện giọng nói biết đến hàng thập kỷ, nhiên khó khăn nhận dạng tiếng nói tiếng nói ln biến thiên theo thời gian có khác biệt lớn tiếng nói người nói khác nhau, tốc độ nói, ngữ cảnh mơi trường âm học khác Sự đời Deep Learning giúp nhận diện giọng nói xác, chí ngồi mơi trường phịng lab Bài báo sử dụng cơng nghệ Kaldi để tăng cường chất lượng nhận dạng giọng nói, kết mơ cho thầy giọng nói nhận dạng xác Từ khóa: AI, Deep Learning; Kaldi; Nhận dạng giọng nói Summary: According to the latest statistics of Adsota Vietnam, in early 2020, nearly 50% of Vietnam's population are using smartphone with a total of about 43.7 million smartphones; Many people use more than phones at the same time with the average phone ownership rate of 1.7 phones / person; More Vietnamese people go online by phone than on computers, with 68% more Currently, in Vietnam, 70% of mobile subscribers are using the internet from 3G or 4G with an average speed of 14.6 Mbps [1] The above data shows that there has been a positive change in the structure of using telecommunications services and technology products As a result, queuing / booking from home becomes a very practical demand for the majority of the population This article deals with multi-protocol queuing system, solving the problem of getting the number (queuing number) that can be retrieved from many parallel real-time protocols, in order to bring convenience to both the queue participants and the unit that manages the queue At present, the three main areas that need the queuing system are the public administration system, banking transaction offices and health facilities Key words: Multi-protocol, real-time protocol, queuing system 18 TẠP CHÍ KHOA HỌC QUẢN LÝ VÀ CƠNG NGHỆ Giới thiệu Kaldi công cụ nhận dạng tiếng nói viết C++, cấp phép theo giấy phép Apache 2.0 [1] Kaldi thiết kế cho nhà nghiên cứu nhận dạng tiếng nói Kaldi gồm thư viện, chương trình dịng lệnh kịch cho mơ hình âm học Kaldi triển khai nhiều giải mã để đánh giá mơ hình âm học, sử dụng huấn luyện Viterbi cho việc ước lượng mơ hình âm học Chỉ trường hợp đặc biệt huấn luyện discriminative thích nghi người nói mở rộng sử dụng thuật toán BaumWelsh Các kiến trúc cơng cụ Kaldi tách thành thư viện Kaldi kịch huấn luyện Các kịch truy cập vào hàm thư viện Kaldi qua chương trình dịng lệnh Thư viện Kaldi C++ xây dựng dựa thư viện OpenFST Các hàm có liên quan đến thường nhóm tên miền mã nguồn C++ mà tương ứng với thư mục hệ thống tập tin Kiến trúc công cụ Kaldi Các mơ-đun thư viện nhóm lại thành hai nửa riêng biệt, nửa phụ thuộc vào thư viện bên ngồi Mơ-đun DecodableInterface cầu nối hai nửa Kaldi thực thi cách tải đầu vào từ tập tin lưu trữ kết tới tập tin lần Ngồi ra, đầu chương trình Kaldi đưa vào lệnh sử dụng hệ thống đường ống (pipe) Quy trình thực việc huấn luyện Kaldi 2.1 Chuẩn bị liệu cho việc thực huấn luyện Như ta biết để huấn luyện kaldi ta phải chuẩn bị nguồn liệu liệu âm (acoustic data) liệu ngôn ngữ (language data) - Acoustic data: Là liệu âm cụ thể audio câu nói người nói khác Cụ thể liệu âm báo sử dụng liệu ngôn ngữ Tiếng Việt sưu tầm nhiều nguồn khác nhau, bao gồm giọng nữ, nam giọng nói bao gồm vùng miền Bắc,Trung,Nam - Language data: Là liệu ngôn ngữ cụ thể văn tương ứng với liệu âm đưa vào Ngồi liệu ngơn ngữ cịn phân tách âm vị tương ứng với câu có văn đưa vào 2.2 Chuẩn bị liệu thử nghiệm Ở báo tiến hành thử nghiệm với số lượng liệu audio với tần suất 16kHz sưu tầm từ nguồn khác bao gồm: Các trang audio truyện, youtube, thời sự,… Dữ liệu mà báo đưa vào tiến hành thử nghiệm cụ thể liệu ngôn ngữ tiếng việt, bao gồm đầy đủ giọng nam, nữ giọng mang ngữ điệu ba vùng miền miền Bắc, miền Trung miền Nam Việc thực trình train cần chuẩn bị tệp liệu testset(hay gọi liệu kiểm tra,cố định trình train thử nghiệm, bao gồm liệu âm liệu ngôn ngữ) tệp liệu train (bao gồm liệu âm liệu ngôn ngữ) 2.3 WER WER viết tắt Word Error Rates, việc huấn luyện kaldi trả điểm số WER Vì điểm WER cao chất lượng nhận dạng ngược lại Cơng thức tính điểm WER kaldi: WER = 100 * dist(decoded(a), t, edit op = sub, del, ins) /num words(t) 2.4 Kết thử nghiệm Ở ta mặc định sử dụng tệp testset (dữ liệu kiểm tra) ngôn ngữ Tiếng Việt biên soạn gồm có 2323 liệu audio văn Tiếng Việt tương ứng TẠP CHÍ KHOA HỌC 19 QUẢN LÝ VÀ CÔNG NGHỆ bao gồm liệu âm liệu STT Dữ liệu train Dữ liệu test Mono(%WER) Tri1(%WER) 9384 2323 42.23% 30.29% 11602 2323 42.37% 30.58% 12711 2323 42.9% 30.68% Bảng 1: Kết tiến hành thử nghiệm huấn luyện liệu lân Dựa vào bảng có biểu đồ biểu diễn tăng giảm điểm số kết Dựa vào bảng có biểu đồ biểu diễn tăng giảm điểm số kết huấn luyện lầnluyện 1: quảliệu huấn liệu lần 1: Biểu đồ kết huấn luyện liệu lần 50 45 40 42.23 42.37 42.9 30.29 30.58 30.68 9384 11602 12711 35 30 25 20 15 10 mono tri1 Sơ đồ 1: Biểu đồ thể tăng giảm việc huấn luyện liệu lần xét: Việc Nhận Nhận xét: Việc thực hiệnthực huấnhiện luyệnhuấn liệu trả kết nhận dạng không luyện liệu trả kết nhận dạng ý muốn Có thể thấy liệu train tăng trả khơng kết quảđược nhận dạngýcàng đóthấy có muốn CóTừthể thể thấy việc tiến hành học máy xảy dữchúng liệu train tăngdõitrảvào biểu kết vấn đề, ta theo đồ sau đểnhận thấy dạng rõ tăng giảm củacóviệc Từ thể huấn luyện thấy việc tiến hành học máy xảy Các cách cải thiện điểm số WER Kaldi vấn đề, theo dõi 3.1vào Nguyên vấn biểu nhân đồ sau đểđềthấy rõ Vấn đề đề xuất phương án cải thiện: tăng giảm việc huấn luyện 20 TẠP CHÍ KHOA HỌC Vấn 1đềta xuất phương án cải Như bảng thể đề thấy sở hữu hệ thống Kaldi đào tạo, hoạt thiện: ta thống thể thấy chúng động kém.Như Sau khibảng ta có1hệ Nhận dạng giọng động (ASR) hoạt động tích ta nói sở tự hữu hệ thống Kaldi hợp Kaldi, bước cảitạo, thiện hiệu suất động hệ thống đó.Sau Nói đào hoạt rõ hơn, “hệ thống ASR”, tơi đề cập ta có thống Nhận đếnkhi kết hợphệ Mơ hình âmdạng thanhgiọng Mơ hìnhnói ngơn lệ lỗi từhoạt (WER) số liệu tự ngữ độngTỷ(ASR) động thường sử dụng đánh giá hiệutích suất hệ Kaldi, thống bước WER hợp tiếpphải theo hiểu hiệu suất kết hợp hai phần: (Mơ ta sẽvà Mơ cải hình thiệnngơn hiệungữ) suất -của hìnhchúng âm hệ thống Nói rõ hơn, “hệ 3.QUẢN CácLÝ cách cải thiện điểm số WER VÀ CƠNG NGHỆ thống ASR”, tơi đề cập đến Kaldi kết hợp Mơ hình âm nhớ điều Để cải thiện WER nhiều có thể, bạn cần giải vấn đề hai mơ hình Tuy nhiên, cải tiến riêng biệt hai mơ hình dẫn đến cải tiến WER tổng thể 3.2 Tiến hành sử dụng biện pháp cải thiện a) Mơ hình âm thanh(acoustic model) có chức giúp Như nêu mục mơ hình âm khử dữtiến liệuồn(ví audiodụ: màadobe,audacity,…) sử dụng để tiến hành luyện liệuchúng nhận dạng Trongviệc huấn nghiên cứudữ giọng nói Vì liệu mà sưu thực thử nguồn nghiệmkhông viêc tránh khử tiếng tầm nhiều tình trạng choliệu nguồn ồn đốimà vớikaldi audio cho liệu xấu Việc sử dụng kaldi dựa số xấuliệu trênaudio phần theo mềmquy audacity lượng tắc đạtTheo chuẩn nó, sau điều cần biết nghiên cứu quy trình thu thập sử dụng liệu audio để huấnbiết luyện kaldi: Audacity phần mềm tự +do, Audio phải dạng WAV trình sửamang nhạcđịnh số đa nềnlàtảng + Mỗi audio đại diện cho câu nói, nên ứng dụng ghi âm Nó hoạt động audio có độ dài từ đến 15 giây +trên MỗiWindows, audio chỉMac có OS giọng người nói, tránh tình trạng audio có giọng X, Linux BSD người nói, tránh tình trạng giọng nói trồng Dominic chéo lênAudacity nhau(hayđược gặp tạo phải audio thảo Mazzoni luận) anh nghiên cứu + Audio không dính nhiều tạp sinh Đại học Carnegie Mellon, âm(ví dụ: Tiếng trống, tiếng gió, tiếng ồn khác) Pennsylvania, HoađãKỳ Mazzoni Ởbang bảng liệu chuẩn bị tiến hành huấn luyện kaldi, nhiên việc loại bỏ tạp âm mong muốn chưa áp dụng thực Vậy bắt đầu việc cải thiện liệu audio xấu có xuất nhiều tạp âm Theo biết vào thời điểm có nhiều phần mềm chỉnh sửa audio, có chức giúp khử tiến ồn (ví dụ: adobe,audacity,…) Trong nghiên cứu làm việc Google, thực thử nghiệm viêc khử phát audio trì tiếnglàồnngười cáctriển liệu cho xấu phần mềm audacity Theo Audacity, với giúp đỡ nghiên cứu biết Audacity nhiều người phần mềm khác tự do,trên trìnhtồn sửa nhạc số đa tảng ứng dụng ghi âm Nó hoạt giới động Windows, Mac OS X, Linux BSD ỞAudacity nghiên cứu chúngMazzoni tạo Dominic sử anhdụng đangchủ nghiên sinhnăng Đại học yếu 2cứu chức Carnegie Mellon, bang Pennsylvania, Hoa chức để Google, Kỳ Mazzoni cắt làmaudio việc người phát triển trì phân tách nhỏ audio theo câu nói Audacity, với giúp đỡ nhiều người chức xử giới lý tiếng ồn khác trênnăng toàn Ở bàithực nghiên audacity Việc hiệncứu khửnày tiếnchúng ồn tơi sử dụng chủ yếu chức chức sẽnăng diễncắt thành đoạn theo audio 3đểgiai phân tách nhỏ audio theo câu nói chức xử lý tiếng mốc liệu train với chiều hướng ồn audacity Việc thực khử tiến ồn diễn tăng dần giống nhưtheo phần huấn luyện thành giai đoạn mốc liệu train với chiều hướng tăng dần giống phần thử nghiệm Sau kết sau huấn luyện thử nghiệm Sau kết việc khử ồn ồn sautiến khihành tiến hành việctiếng khử tiếng phân tách theo liệu chuẩn, phù hợp để STT Dữ liệu Dữ liệu Mono Tri1 train test (%WER) (%WER) 9384 2323 42.56 29.96 11602 2323 42.2 30.23 12711 2323 42.99 30.37 Bảng 2: Kết huấn luyện thử nghiệm sau khử tiếng ồn phần mềm Audacity với liệu audio Dựa vào bảng có biểu đồ biểu diễn tăng giảm điểm kếtHỌC TẠP số CHÍcủa KHOA huấn luyện liệu lần 2: QUẢN LÝ VÀ CÔNG NGHỆ 21 Biểu đồ kết huấn luyện lần 50 Dựa vào bảng có biểu đồ biểu diễn tăng giảm điểm số kết huấn 45 2: luyện liệu lần 42.99 42.56 40 Biểu đồ kết huấn luyện lần 35 50 45 40 35 30 25 20 30 30.37 30.23 29.96 25 20 42.56 42.2 42.99 29.96 30.23 30.37 15 10 15 10 42.2 9384 11602 mono 12711 tri1 Sơ đồ 2: Biểu đồ thể tăng giảm việc huấn luyện liệu lần Nhận xét: Thực việc so sánh bảng bảng 1, kết luận sau 9384 11602 12711 sử dụng phương pháp khử tiếng ồn, monoloại bỏ tri1tạp âm ứng dụng audacity việcSơ thực huấn kaldi cógiảm thiện, khửdữtiếng ồn giúp cải đồ 2: Biểu đồ luyện thể tăng củacảiviệc huấnviệc luyện liệu lần thiện giảm điểm WER 0.31 đến20.35 % 1, kết luận sau Nhận xét: Thực hiệnsốviệc so từ sánh bảng bảng Nhận xét: Thực việc so sánh bảng b) Cải thiện phương thức huấn luyện b)1,Cải thiện phương luyện khivàsửbảng dụng phương khửthức tiếnghuấn ồn,khi loại chúng tôipháp kết luận sau sử bỏ tạp âm ứng dụng audacity Như biết việc huấn luyện dụng phương pháp ta khử tiếngbiết loại huấn tạpluyện kaldi giúp tạo mơ hình việc việc thực Như chúng huấn luyện kaldiồn, có bỏ cải thiện, việcchúng khử tiếng giúpmơcảihình GMMkaldi giúp ta tạo ồn âm ứng dụng audacity việc thực HMM bắt đầu huấn huấn luyện kaldi cải thiện, việc GMM-HMM có vậytừ ta bắt đầu huấn luyện với mơ hình cải tiến thiện giảm điểm số WER 0.31chúng đến 0.35 % luyện với mơ hình cải tiến mơ khử tiếng ồn giúp cải thiện giảm điểm số WER hình DNN quy Kaldi mơ% hìnhthức DNN Sauluyện quy trình đào tạo Sau Kaldiđây điển hìnhtrình baođào gồmtạo bốn Cải đến thiện phương huấn từb)0.31 0.35 điển hình bao gồm bốn bước sau: bước sau:ta biết việc huấn luyện kaldi giúp tạo mơ hình Như chúng GMM-HMM bắt đầu huấn luyện với mơ hình cải tiến Step Dependencies mơ hình DNN Sau quy trình đào tạo Kaldi điển hình bao gồm bốn bước sau: Train Monophones Step Train Triphones pairs of training data Dependencies Monophone alignments Train Monophones pairs of training data Train Triphones Monophone alignments 22 TẠP CHÍ KHOA HỌC QUẢN LÝ VÀ CƠNG NGHỆ Step Dependencies Train Speaker Adaptations Triphone alignments Train Deep Neural Network Triphone + Speaker Adaptation alignments Bảng 3: Các bước quy trình đào tạo huấn luyện Kaldi Sau phương thức huấn luyện có Kaldi: Phương thức huấn luyện Mô tả Monophone Mono Triphone Tri1 ∆ + ∆∆ Tri2a LDA + MLLT Tri2b LDA + MLLT + MMI Tri2b_mmi LDA + MLLT + bMMI Tri2b_mmi_b0.05 MPE Tri2b_mpe LDA + MLLT + SAT Tri3 SGMM Sgmm SGMM + bMMI Sgmm_mmi_b0.1 Bảng 4: Một số mơ hình phương thức sử dụng để huấn luyện đào tạo Kaldi Cóthấy thể thấy mơDNN hình làDNN mơ cảimơ tiến từ GMM-HMM mơ hình GMM-HMM Có thể mơ hình mơ hình cảihình tiến từ hình nên trìnhnên huấntrong luyệnquá đào tạohuấn muốnluyện huấn luyện mơ DNN bắt phải huấn trình đào tạo hình muốn huấn luyện buộc mơ hình DNN luyện mơ hình GMM-HMM Dựa vào bảng thấy mono tri1 đại diện cho mơ hìnhtaGMM-HMM sau phải chúng thử tiếnrahành huấn luyện chúng bắt buộc huấn luyện mơ thực hìnhhiện GMM-HMM Dựatri2b vào tri3 kết mơ hình DNN: bảng thấy mono tri1 đại diện cho mô hình GMM-HMM sau chúng tơi thử tiến hành thực huấn luyện tri2b tri3 kết mơ hình DNN: TẠP CHÍ KHOA HỌC 23 QUẢN LÝ VÀ CÔNG NGHỆ Dữ Dữ liệu liệu train test 28947 STT Mono Tri1 Tri2b Tri3b (%WER) (%WER) (%WER) (%WER) 2323 40.49 24.39 21.33 18.21 30772 2323 40.61 24.67 21.61 18.4 32196 2323 41.16 24.79 21.48 18.35 Bảng 5: Kết việc huấn luyện đào tạo dựa việc sử dụng phương thức mơ hình huấn luyện khác Dựa vào bảng có biểu đồ biểu diễn tăng giảm điểm số kết huấn luyện liệu lần 3: Biểu đồ kết huấn luyện lần 45 40 40.49 40.61 41.16 24.39 21.33 18.21 24.67 21.61 18.4 24.79 21.48 18.35 28947 30772 32196 35 30 25 20 15 10 mono tri1 tri2b tri3b Sơ đồ 3: Biểu đồ thể tăng giảm việc huấn luyện liệu lần Nhận xét: Ở lần thử nghiệm tăng số liệu train đồng thời Nhận xét: Ở lần thử nghiệm tăng số liệu train đồng thời thử nghiệm thử nghiệm với cáchuấn phương pháp luyện Kếtđiểm số trảđược với phương pháp luyện mới.huấn Kết trảmới cảiđiểm thiệnsố rõ rệt, giảm từ ~3% đến ~5% Việc thửtừ nghiệm được~5% diễn thành cải thiện rõ rệt, giảm ~3% đến Việc thửcông nghiệm diễn thành c) Tiến hành cải thiện với mơ hình ngơn ngữ language model cơng Theo ta biết mơ hình ngơn ngữ dựa trainscripts(các văn tương ứng c) Tiến hành cải thiện với mơ hình ngơn ngữ language model với audio) bảng âm vị(lexicon) Việc thay đổi liệu văn đồng thời thay đổi 24 TẠP CHÍ KHOA HỌC QUẢN LÝ VÀ CƠNG NGHỆ vị đồng khác Ở tôiMỗi sử dụng mộttrong tool văn có mang tênđược Dictionary âm thời thay đổichúng âm vị từ tách thành Vietnamese toolnhau chúng tự nghiên dụng phát triển, số Dictionary ví dụ âm vị khác Ở tơi sử toolsau cóđây mang tên âm vị Mỗi từ văn tách thành âm vị khác Ở chúng tơi sử táchcóâm vị tương với từ: dụng phân tool mang tên chúng ứng Dictionary Vietnamese tool chúng tơi tự nghiên cứsố vàví phát Vietnamese tool tự nghiên phát triển, sau dụ triển, sau số ví dụ phân tách âm vị tương ứng với từ: Từtừ: phân tách âm vị tương ứng với Âm vị ANH Từ EM ANH AÂm NGZvị EAMC NGZ ƯƠM EM ƯƠNG ƯƠM WA MC E MC WA NGZ WA MC ƯỚC WA1 KC ƯƠNG WA NGZ ƯỚT ƯỚC WA1 WA1TC KC Bảng 6: Một số ví dụ việc phân tách âm vị từ ƯỚT WA1 TC Do việc sưu tầm xử lý lượng liệu lớn nên việc audio liệu văn Bảng 6: Một số ví dụ việc phân tách âm vị từ không tương ứng điều không tránh khỏi Sau tiến hành việc việc xử lượng lý mộtdữ lượng liệu việc vàvăn liệu không văn Do việcDo sưu tầmsưu tầm xử lývàmột liệu lớn nên lớn việcnên audio audio liệu văn tránh tương ứng với chúng dữtôiliệu liệu văn đổi tươngsửa ứng điềuliệu không khỏi Sau tiếnaudio(dữ hành việc sửa cácbản thay liệu văn không tương ứng điều không tránh khỏi Sau tiến hành việc tương ứng với liệu audio(dữ liệu văn thay đổi đồng thời liệu âm vị thay đổi) đồng thời liệu âm vị thay đổi) sửa liệu văn tương ứng với liệu audio(dữ liệu văn thay đổi Dữ liệu Dữ liệu Mono Tri1 STTđồng thời liệu âm vị thay đổi) train test (%WER) (%WER) STT Tri2b Tri3b (%WER) (%WER) Tri3b Dữ liệu Dữ liệu Mono Tri1 Tri2b 32196 train 2323 test (%WER) (%WER) (%WER) 32196 2323 40.62 24.59 21.52 32196 2323 40.02 32196 2323 40.02 40.62 24.59 24.55 24.55 21.52 (%WER) 18.47 Chú thích Đã sửa 3600 liệu Chú thích văn với Đã sửa 3600 liệu audio tương ứng 18.47 văn với Đã sửa 7924 liệu audio tương ứng 18.4 văn với Đã sửa 7924 audio tương ứngdữ liệu 21.58 21.58 18.4 văn với audio tương ứng Bảng 7: Kết trình đào tạo huấn luyện sau sử dụng phương pháp cải thiện language model Dựa vào bảng có biểu đồ biểu diễn tăng giảm điểm số kết huấn luyện liệu lần 4: Biểu đồ kết huấn luyện lần 45 40 35 30 40.62 40.02 TẠP CHÍ KHOA HỌC 25 QUẢN LÝ VÀ CÔNG NGHỆ Dựa vào bảng có biểu đồ biểu diễn tăng giảm điểm số kết huấn luyện liệu lần 4: Biểu đồ kết huấn luyện lần 45 40 40.62 40.02 24.59 21.52 18.47 24.55 21.58 18.4 32196 32196 35 30 25 20 15 10 mono tri1 tri2b tri3b Sơ đồ 4: Biểu đồ thể tăng giảm việc huấn luyện liệu lần Nhận xét: Sau thay đổi liệu văn tương ứng, điểm số WER có kết Nhận xét: Sau thay đổi liệu văn tương điểm WER giảmứng, dần từ ~0.1sốđến ~1%có kết giảm dần từ ~0.1 đến ~1% hình âm học khác hỗ trợ Kaldi Các trọng số mơ hình ngơn ngữ xem xét đánh giá Các thử nghiệm Kết luận giải pháp cải thiện hệ thống ASR Kết luận Kaldi giúp giải đáp thắc mắc khó khăn Bài báo mô tả phương pháp xây dựng hệ thống nhận dạng tiếng Việt nói gặp phải trường hợp huấn luyện hệ thống trả Bài báo mô tả phương pháp xây raluyện kết ngày Bộphương công cụ pháp Kaldi cho sử dụng công Kaldi dựaViệt trênnói lần đào tạocàng bằngtệ.các dựng hệ thống nhậncụdạng tiếng sử huấn kết nhận dạng tốt với tiếng Việt nói dụng cơng cụ Kaldi dựa lần huấn cải tiến khác nhằm đưa giải pháp cải thiện chất lượng nhận dạng tiếng Ngồi yếu tố mơ hình ngôn ngữ, luyện đào tạo phương pháp cải tiến mơ hình âm tham số quan trọng khác nhằm pháp cải pháp nói.nhau Chúng tơiđưa thửgiải nghiệm cácthiện phương huấn luyện mơ hình âm học khác việc xây dựng hệ thống cải thiện chất chất lượng nhận dạng tiếng nói Chúng lượng thửnhau nghiệm cáchỗphương huấn luyện môsố trợ bởipháp Kaldi Các trọng mơnhận hìnhdạng ngơn ngữ xem xét đánh giá Các thử nghiệm giải pháp cải thiện hệ thống ASR Kaldi TÀI LIỆU THAM KHẢO giúp giải đáp thắc mắc khó khăn gặp phải trường hợp huấn luyện hệ thống [1] Kaldi-asr.org trả kết ngày tệ Bộ công cụ Kaldi cho kết nhận dạng tốt với [2] Kaldi Troubleshooting Head-to-Toe-jrmeyer 26 TẠP CHÍ KHOA HỌC QUẢN LÝ VÀ CÔNG NGHỆ ... bằngtệ.các dựng hệ thống nhậnc? ?dạng tiếng sử huấn kết nhận dạng tốt với tiếng Việt nói dụng cơng cụ Kaldi dựa lần huấn cải tiến khác nhằm đưa giải pháp cải thiện chất lượng nhận dạng tiếng Ngồi yếu... xét: Việc Nhận Nhận xét: Việc thực hiệnthực huấnhiện luyệnhuấn liệu trả kết nhận dạng không luyện liệu trả kết nhận dạng ý muốn Có thể thấy liệu train tăng trả không kết quảđược nhận dạng? ?càng... nhằm pháp cải pháp nói. nhau Chúng tôiđưa thửgiải nghiệm cácthiện phương huấn luyện mô hình âm học khác việc xây dựng hệ thống cải thiện chất chất lượng nhận dạng tiếng nói Chúng lượng thửnhau nghiệm

Ngày đăng: 15/03/2022, 10:44