Nhận dạng tiếng nói chữ số Việt sử dụng bộ công cụ

8 15 0
Nhận dạng tiếng nói chữ số Việt sử dụng bộ công cụ

Đang tải... (xem toàn văn)

Thông tin tài liệu

Bài viết trình bày hệ thống nhận dạng tiếng nói chữ số Việt sử dụng Hidden Markov Model (HMM) Tool Kit (HTK) để thực nghiệm đánh giá. Kết quả được kiểm nghiệm bằng các tiếng nói chữ số rời rạc, liên tục và có độ chính xác tương đối cao.

NHẬN DẠNG TIẾNG NÓI CHỮ SỐ VIỆT SỬ DỤNG BỘ CƠNG CỤ Ngơ Thị Thùy Vân1 Nguyễn Thị Thu Huyền2 Tóm tắt: Nhận dạng tiếng nói người thu hút quan tâm nghiên cứu nhiều nhà khoa học nước Trong năm gần đây, có nhiều nghiên cứunhận dạng tiếng nói cho tiếng Việt chủ yếu tập trung vào nhận dạng từ rời rạc, hay hệ thống nhận dạng liên tục với kích thước nhỏ Bài báo trình bày hệ thống nhận dạng tiếng nói chữ số Việt sử dụng Hidden Markov Model (HMM) Tool Kit (HTK) để thực nghiệm đánh giá Kết kiểm nghiệm tiếng nói chữ số rời rạc, liên tục có độ xác tương đối cao Từ khóa: nhận dạng tiếng nói, mơ hình Markov ẩn, cơng cụ nhận dạng HTK, chữ số Việt, hệ thống nhận dạng Mở đầu Ngay từ máy tính đời, người mơ ước máy tính nói chuyện với mình, việc nghiên cứu phương pháp phát triển kỹ thuật nhận dạng tiếng nói thu hút nhiều đầu tư nghiên cứu nhà khoa học giới Hiện giới, lĩnh vực nhận dạng tiếng nói (Speech recognition) đạt nhiều tiến vượt bậc, việc lệnh, điều khiển thiết bị điện tử ti vi, smartphone, máy tính giọng nói khơng cịn q xa lạ với người dùng Tuy nhiên nhận dạng ngôn ngữ tiếng Anh nghiên cứu hồn thiện, cịn ngơn ngữ tiếng Việt có tính chất phức tạp mặt ngữ âm nên cần tập trung nghiên cứu nhiều Một hệ thống nhận dạng tiếng nói nước ta phải xây dựng tảng tiếng nói tiếng Việt Nội dung 2.1 Nhận dạng tiếng nói Nhận dạng tiếng nói q trình xử lý tiếng nói nhằm biến tín hiệu tiếng nói người phát thành tín hiệu số, sau sử dụng số giải thuật để đối chiếu tín hiệu thu tương ứng với liệu tham chiếu tham chiếu (từ điển nhận dạng) Về chất, trình biến đổi tín hiệu âm thu người nói qua Micro, đường dây điện thoại thiết bị khác thành chuỗi từ cách xác hiệu Kết việc nhận dạng sau ứng dụng học tập, điều khiển, nhập liệu… Khoa Ngoại ngữ, Đại học Thái Nguyên Khoa Ngoại ngữ, Đại học Thái Nguyên 114 Ngô Thị Thùy Vân, Nguyễn Thị Thu Huyền Dữ liệu tiếng nói Mơ hình âm Tín hiệu vào Phân tích xác định đặc tính Mơ hình từ vựng Mơ hình hóa/Phân lớp Mơ hình ngơn ngữ Tìm kiếm/ Đối sánh Từ nhận dạng Dữ liệu tiếng nói Mơ hình âm Tín hiệu vào Phân tích xác định đặc tính Mơ hình từ vựng Mơ hình hóa/Phân lớp Mơ hình ngơn ngữ Tìm kiếm/ Đối sánh Từ nhận dạng 2.2 Hệ thống nhận dạng tiếng nói tiếng Việt mơ hình Markov ẩn Hệ thống nhận dạng tiếng nói tiếng Việt giống hệ thống nhận dạng ngơn ngữ có điệu khác, bao gồm hai q trình nhận dạng song song là: nhận dạng từ khơng có điệu nhận dạng điệu tổng hợp để đưa định Hình 2: Cấu trúc hệ thống nhận dạng ngơn ngữ có điệu Mơ hình Markov ẩn (Hidden Markov Model – HMM) mơ hình thống kê dùng để mơ hình hóa loại tín hiệu theo thời gian, với tham số trước Thực tế nghiên cứu nước cho thấy, lĩnh vực nhận dạng tiếng nói mơ hình Markov ẩn cho kết nhận dạng tốt phương pháp khác 2.3 Bộ công cụ nhận dạng tiếng nói tiếng Việt HMM Tool Kit (HTK) HTK tập công cụ để xây dựng mơ hình ngữ âm cho mục đích nhận dạng tiếng nói, phát triển Steve Young đồng nghiệp ông trường Đại học 115 NHẬN DẠNG TIẾNG NĨI CHỮ SỐ VIỆT SỬ DỤNG BỘ CƠNG CỤ Cambridge [2] HTK tích hợp hầu hết kĩ thuật mơ hình Markov ẩn, kĩ thuật xử lý nhận dạng tiếng nói Ngồi ra, cịn cho phép ta xây dựng mơ hình ngơn ngữ, cú pháp văn phạm để trình nhận dạng tiếng nói đạt hiệu cao Hình 3: Các cơng cụ chức HTK Hình 4: Cấu trúc tập tin mơ hình Markov ẩn (HMM) tạo HTK 2.4 Một số Modul sử dụng trình xây dựng hệ thống nhận dạng tiếng nói tiếng việt công cụ HTK Modul copy hay nhiều file liệu vào file đầu định trước, chuyển đổi liệu sang dạng tham số Là modul để rút trích đặc trưng 116 Ngô Thị Thùy Vân, Nguyễn Thị Thu Huyền tập tin chứa tiếng nói HCopy sử dụng theo bước sau: Hình 5: Các Module chức HTK.HCopy Bước 1: Tạo tập tin script dùng để chứa tên tập tin cần chuyển đổi tên tập tin kết (chẳng hạn đặt tên chuyendoi.scp) Mỗi dòng tập tin script chứa đường dẫn: Tên_tập_tin_cần_xử_lý Tên_tập_tin_kết_quả_tương_ứng Ví dụ: c:/YOU_2/wave/1.mfc c:/YOU_2/wave/10.mfc c:/YOU_2/wave/11.mfc c:/YOU_2/wave/12.mfc c:/YOU_2/wave/13.mfc c:/YOU_2/wave/14.mfc c:/YOU_2/wave/15.mfc Bước 2: Tạo tập tin cấu hình có tên HCopy.cfg chứa thơng tin kiểu tập tin nguồn, kiểu tập tin đích, kích thước cửa sổ… Ví dụ: 117 NHẬN DẠNG TIẾNG NĨI CHỮ SỐ VIỆT SỬ DỤNG BỘ CÔNG CỤ Bước 3: Thực thi lệnh để tạo tập tin đích, chẳng hạn dòng lệnh sau: HCopy –C HCopy.cfg –S chuyendoi.scp HParse Modul dùng để tạo tập tin mô hình ngơn ngữ từ tập tin văn phạm sử dụng cách sau: Bước 1: Tạo tập tin văn phạm phù hợp với ngữ cảnh (chẳng hạn đặt tên gram), Ví dụ tập tin sau: $digit= moojt | hai | ba | boosn | nawm | sasu | bary | tasm | chisn | khoong; () Bước 2: Thực thi lệnh HParse: HParse gram wdnet Kết thúc trình ta thu tập tin wdnet Tập tin dùng để gán nhãn modul HVite HVite HVite modul dùng để nhận dạng hệ thống nhận dạng tiếng nói mơ hình Markov ẩn, sử dụng qua bước sau: Bước 1: Tạo tập tin script chứa tất tập tin cần nhận dạng ví dụ đặt tên test.scp Bước 2: Chuẩn bị tập tin như: từ điển dict, mạng ngơn ngữ wdnet, mơ hình HMM hmmlist, tập mơ hình HMM huấn luyện hmmset Bước 3: Thực thi lệnh HVite với dòng lệnh tham số: HVite –w wdnet –I recout.mlf –S test.scp –H hmmset dict hmmlist Kết thúc lệnh tệp tin Master lable recout.mlf chứa mô tả liệu cần nhận dạng tạo HCompV HCompV đùng để khởi tạo mơ hình Markov ẩn tập tin huấn luyện chưa đánh nhãn Các bước sử dụng HCompV sau: Bước 1: Tạo tập tin script chứa tất tập tin dùng huấn luyện (chẳng hạn đặt tên train.scp) Bước 2: Tạo mơ hình HMM khởi đầu giả sử tên proto Bước 3: Thực thi HCompV với lệnh sau: HCompV –S train.scp proto Kết thúc lệnh ta thu mơ hình HMM với tham số tập tin liệu HRest Dùng để huấn luyện mô hình HMM, thực theo bước sau: 118 Ngô Thị Thùy Vân, Nguyễn Thị Thu Huyền Bước 1: Tạo tập tin script chứa tất tập tin dùng để huấn luyện (chẳng hạn có tên Train.scp) Bước 2: Khởi tạo tập tin mơ hình Hmm HCompV nói Bước 3: Thực thi lệnh HRest với dòng lệnh tham số như: HRest –S train.scp vidu Kết thúc lệnh ta thu mơ hình HMM huấn luyện tập tin vidu 2.5 Kết thử nghiệm xây dựng hệ thống nhận dạng tiếng nói chữ số tiếng Việt Xây dựng sở liệu chữ số tiếng việt Cơ sở liệu thực nghiệm sở liệu tự xây dựng với 1000 mẫu tập huấn luyện 100 mẫu tập test Để thuận tiện cho việc gán nhãn, liệu thu theo câu phát sinh ngẫu nhiên (dạng văn bản) nhờ công cụ HTK Các bước xây dựng liệu sau: - Sinh tổ hợp ngẫu nhiên 1100 câu văn có kích thước từ đến 10 từ 10 chữ số từ đến - Tách 1100 câu thành 22 câu nhỏ, 50 câu - Tiến hành thu âm với 22 người nói tương ứng với 22 câu (11 nữ, 11 nam, độ tuổi từ 20 đến 24) - Lấy ngẫu nghiên 100 câu 1100 câu thu âm làm test, lại 1000 câu làm traing Bảng phiên âm 10 chữ số tiếng Việt Cách phiên âm có vài trị quan trọng đảm bảo chất lượng hệ thống nhận dạng Hệ thống sử dụng bảng phiên âm âm vị cho hệ thống nhận dạng 10 chữ số tiếng Việt sau: Bảng 1: Bảng phiên âm 10 chữ số tiếng Việt Chữ số Phiên âm tả Khoong Moojt Hai Ba Boosn Nawm Sasu Bary Tasm Chisn Phiên âm âm vị /Kh/ /oo/ /ng/ /m/ /ooj/ / t/ /h/ / a // i/ /b/ / a / /b//oos//n/ /n//aw//m /s//as//u/ /b//ar//y/ /t//as//m/ /ch//is//n/ Phương pháp xây dựng hệ thống nhận dạng chữ số tiếng việt 119 NHẬN DẠNG TIẾNG NĨI CHỮ SỐ VIỆT SỬ DỤNG BỘ CƠNG CỤ Phương pháp xây dựng hệ thống nhận dạng 10 chữ số phát âm tiếng Việt tiến hành theo bước: • Từ điển: xây dựng dựa bảng phiên âm âm vị bao gồm loại từ điển cho thực nghiệm khác để đánh giá độ xác chọn từ điển thích hợp Một từ điển không chèn sp (short pause) từ điển có chèn thêm sp • Sử dụng công cụ HTK để xử lý rút trích đặc trưng liệu huấn luyện liệu Test • Xây dựng mơ hình Markov ẩn với hàm phát xạ quan sát hàm mật độ Gauss • Số lượng trạng thái mơ hình Markov ẩn trạng thái, có trạng thái khởi đầu trạng thái kết thúc khơng có phát xạ quan sát • Sử dụng vector đặc tính phổ gồm hệ số MFCC, giá trị lượng delta, delta- delta giá trị tạo thành tập 39 đặc tính phổ tương ứng với khung tín hiệu 10ms • Tiến hành buộc âm vị khơng có đủ liệu huấn luyện theo phương pháp dùng (tree- based) Các âm vị tập liệu kiểm tra mà khơng có mặt liệu huấn luyện tổng hợp từ âm vị huấn luyện giống • Thử nghiệm trộn nhiều hàm Gauss mix trạng thái Kết thực nghiệm Thử nghiệm với từ điển có chèn short pause không chèn short pause Trong nói, câu từ có khoảng ngừng nghỉ khác nhau, để máy phân biệt điều khó khăn Để kiểm tra ảnh hưởng yếu tố ngừng nghỉ câu, từ tới độ xác hệ thống, nhóm tác giả tiến hành thử nghiệm từ điển phiên âm 10 chữ số tiếng Việt Một từ điển phiên âm không chèn thêm âm quy định khoảng nghỉ từ điển có chèn thêm sp quy định khoảng nghỉ từ +Từ điển không chèn thêm sp +Từ điển có chèn thêm sp Kết thử nghiệm độ xác hệ thống nhận dạng theo từ điển cho bảng sau: 120 Ngô Thị Thùy Vân, Nguyễn Thị Thu Huyền Bảng Kết thử nghiệm hệ thống nhận dạng với từ điển có chèn sp không chèn sp Hệ thống nhận dạng Mức câu Mức từ Bộ từ điển không chèn sp 56% 90% Bộ từ điển có chèn sp 70% 90% Như vậy, với từ điển có chèn thêm sp, độ xác mức câu tăng lên Kết luận Bài báo trình bày hệ thống nhận dạng tiếng nói dựa cơng cụ HTK Mơ hình thử nghiệm nhận dạng tiếng nói chữ số Việt xây dựng dựa công cụ HTK đáp ứng mục tiêu nhóm tác giả Chúng tơi thử nghiệm với 1000 câu làm liệu huấn luyện 100 câu làm liệu test, kết cho độ xác chấp nhận (70% mức câu) (90% mức từ) TÀI LIỆU THAM KHẢO [1] Nguyễn Văn Giáp, Trần Việt Hồng (2013), “Kỹ thuật nhận dạng tiếng nói ứng dụng điều khiển”, Tạp chí phát triển khoa học cơng nghệ - ĐHQG Hồ Chí Minh [2] Nguyễn Thị Thu Huyền (2018), “Mơ hình Markov ẩn ứng dụng xây dựng hệ thống nhận dạng tiếng nói”, Luận văn Thạc sĩ chuyên ngành CNTT trường Đại học Công nghệ TT&TT- Đại học Thái Nguyên, 44-56 [3] Nguyễn Duy Phương (2007), “Mơ hình Markov ẩn ứng dụng nhận dạng tiếng nói”, Luận văn Thạc sĩ chuyên ngành CNTT trường Đại học Công nghệ ĐHQG Hà Nội, 17-22 [4] Nguyen Hong Quang, Trinh Van Loan, Le The Dat (2010), “Automatic Speech Recognition for Vietnamese using HTK system”, IEEE-RiVF 2010, Hanoi, November, 103-106 Title: VIETNAMESE NUMERAL RECOGNITION BY USING HTK NGO THI THUY VAN NGUYEN THI THU HUYEN School of Foreign Languages – TNU Abstract: Human speech recognition has been being studied both at home and abroad Several studies on Vietnamese speech recognition have recently been carried out but they mainly focus on discrete word recognition or small-scale uninterrupted recognition systems The paper will present a system of Vietnamese numeral recognition using Hidden Markov Model (HMM) Toolkit (HTK) for empirical assessment The results are tested via discrete or continuous numerals with relatively high accuracy Keywords: Speech recognition, Hidden Markov Model, HTK, Vietnamese numerals, recognition system 121 ... pháp xây dựng hệ thống nhận dạng chữ số tiếng việt 119 NHẬN DẠNG TIẾNG NÓI CHỮ SỐ VIỆT SỬ DỤNG BỘ CÔNG CỤ Phương pháp xây dựng hệ thống nhận dạng 10 chữ số phát âm tiếng Việt tiến hành theo bước:... Từ nhận dạng 2.2 Hệ thống nhận dạng tiếng nói tiếng Việt mơ hình Markov ẩn Hệ thống nhận dạng tiếng nói tiếng Việt giống hệ thống nhận dạng ngôn ngữ có điệu khác, bao gồm hai q trình nhận dạng. .. HTK tập cơng cụ để xây dựng mơ hình ngữ âm cho mục đích nhận dạng tiếng nói, phát triển Steve Young đồng nghiệp ông trường Đại học 115 NHẬN DẠNG TIẾNG NÓI CHỮ SỐ VIỆT SỬ DỤNG BỘ CÔNG CỤ Cambridge

Ngày đăng: 30/10/2020, 00:50

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan