Kết hợp phương pháp lượng tử hóa vector và mô hình Markov ẩn trong nhận dạng tiếng nói Tiếng Việt - Ứng dụng trong điều khiển ti vi

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	6
Dung lượng	522,31 KB

Nội dung

Bài báo trình bày một hướng nhận dạng tiếng nói Tiếng Việt, sử dụng mô hình Markov ẩn (Hidden Markov Model - HMM) kết hợp với phương pháp lượng tử hóa vector (Vector Quantization - VQ) để nhận dạng tiếng nói. Kết quả được kiểm nghiệm thực tế bằng mô hình điều khiển tivi.

KẾT HỢP PHƯƠNG PHÁP LƯỢNG TỬ HĨA VECTOR VÀ MƠ HÌNH MARKOV ẨN TRONG NHẬN DẠNG TIẾNG NĨI TIẾNG VIỆT ỨNG DỤNG TRONG ĐIỀU KHIỂN TIVI NGUYỄN TÚ HÀ Khoa Vật lý, Trường Đại học Sư phạm, Đại học Huế Email: nguyentuha82@gmail.com Tóm tắt: Vấn đề nghiên cứu phương pháp nhận dạng tiếng nói thu hút nhiều đầu tư nghiên cứu nhà khoa học khắp giới Tuy nhiên kết mang lại chưa hoàn toàn làm hài lòng nhà nghiên cứu tính phức tạp khơng ổn định tiếng nói Đặc biệt, nhận dạng tiếng nói tiếng Việt kết nhiều hạn chế Bài báo trình bày hướng nhận dạng tiếng nói tiếng Việt, sử dụng mơ hình Markov ẩn (Hidden Markov Model - HMM) kết hợp với phương pháp lượng tử hóa vector (Vector Quantization - VQ) để nhận dạng tiếng nói Kết kiểm nghiệm thực tế mơ hình điều khiển tivi Từ khóa: nhận dạng tiếng nói; lượng tử hóa vector; mơ hình Markov ẩn ĐẶT VẤN ĐỀ Hiện nay, vấn đề tìm hiểu thực hệ thống nhận dạng tiếng nói đưa vào nghiên cứu viện nghiên cứu khắp giới [1], [3] Những ứng dụng mà hệ thống mang lại vơ cùng to lớn có ý nghĩa như: xe lăn cho người tàn tật điều khiển tiếng nói; điều khiển máy tính hệ thống tự động tiếng nói Trên giới có nhiều hệ thống nhận dạng tiếng nói ứng dụng hiệu như: ViaVoice, Dragon Naturally Speaking, Spoken Toolkit, Google… Các hệ thống nhận dạng áp dụng cho ngơn ngữ tiếng Anh, vậy, khơng thể áp dụng hệ thống cho nhận dạng tiếng Việt Do đó, hệ thống nhận dạng tiếng nói tiếng Việt cần phải xây dựng để ứng dụng cho người Việt Nam Một đề xuất chúng tơi phương pháp nhận dạng tiếng nói tiếng Việt, sử dụng mơ hình Markov ẩn rời rạc để nhận dạng tiếng nói kết hợp với phương pháp lượng tử hóa vector Hệ thống kiểm nghiệm thực tế việc xây dựng mơ hình nhận dạng tiếng nói tiếng Việt gồm nhóm lệnh điều khiển tivi HỆ THỐNG NHẬN DẠNG TIẾNG NÓI Một hệ thống nhận dạng nói chung thường bao gồm hai phần: phần huấn luyện phần nhận dạng “Huấn luyện” trình hệ thống “học” những mẫu chuẩn cung cấp những tiếng khác (từ âm), để từ hình thành từ vựng hệ thống “Nhận dạng” trình định xem từ đọc vào từ vựng huấn luyện Tạp chí Khoa học Giáo dục, Trường Đại học Sư phạm Huế ISSN 1859-1612, Số 01(45)/2018: tr 113-118 Ngày nhận bài: 28/12/2016; Hoàn thành phản biện: 19/4/2017; Ngày nhận đăng: 06/7/2017 NGUYỄN TÚ HÀ 114 Quá trình huấn luyện thực sau: Giả sử hệ thống cần nhận dạng từ vựng có V từ Đầu tiên phải huấn luyện để xây dựng mô hình Markov ẩn λv từ từ vựng cách áp dụng tốn mơ hình HMM (bài tốn huấn luyện) [4] Trong q trình huấn luyện, từ nói nhiều lần (có thể hay nhiều người nói), sau tiến hành trích đặc trưng phương pháp đường bao phổ (Mel frequency cepstral coefficient - MFCC) Các vector đặc trưng lượng tử hóa vector để phân lớp đưa vào mơ hình HMM để ước lượng tham số mơ hình cách tối ưu cho từ Như kết tập gồm V codebook kích thước M, V mơ hình HMM Hình Q trình huấn luyện mơ hình VQ/HMM Để nhận dạng, áp dụng toán (bài toán ước lượng) [4] Từ cần nhận dạng trích đặc trưng phương pháp MFCC phân lớp lượng tử hóa vector để có tập quan sát O={o1o2…oT} Tiếp theo, ta tính xác suất P(O│λv) cho tất mơ hình (1≤v≤V) chọn từ v có xác suất lớn nhất, tức là: v*  arg max  P  O | v   0 v V Hình Quá trình nhận dạng từ rời rạc mơ hình VQ/HMM KẾT HỢP PHƯƠNG PHÁP LƯỢNG TỬ HÓA VECTOR VÀ 115 2.1 Tiền xử lý Tín hiệu tiếng nói sau thu trước trích chọn đặc trưng, phải tiến hành tiền xử lý tín hiệu tiếng nói Mục đích việc tiền xử lý tín hiệu tiếng nói để loại bỏ nhiễu, chuẩn hóa biên độ, làm rõ tín hiệu, xác định lệnh điều khiển, tách từ 2.2 Trích chọn đặc trưng Trích chọn đặc trưng q trình thực phân tích nhằm xác định thông tin quan trọng, đặc trưng, ổn định tín hiệu tiếng nói Đối với hệ nhận dạng tiếng nói, việc trích chọn đặc trưng tiếng nói cần thiết Điều giúp giảm thiểu số lượng dữ liệu việc huấn luyện nhận dạng, dẫn đến số lượng cơng việc tính tốn hệ thống giảm đáng kể Bên cạnh đó, việc trích chọn đặc trưng làm rõ khác biệt tiếng so với tiếng khác, làm mờ khác biệt cùng hai lần phát âm khác cùng tiếng Từ trình này, có chuỗi vector quan sát O Có nhiều phương pháp trích chọn đặc trưng khác như: FBA, LPC, MFCC, PLP… Mỗi phương pháp có những ưu điểm nhược điểm riêng Tuy nhiên, phương pháp dựa việc tính hệ số MFCC (Mel-scale Frequency Cepstral Coefficient) sử dụng phổ biến hiệu Vì nghiên cứu sử dụng phương pháp MFCC làm cơng cụ để trích chọn đặc trưng cho hệ thống nhận dạng 2.3 VQ Codebook Trong mơ hình HMM rời rạc, tồn khơng gian đặc trưng âm chia làm số trung bình vùng, thủ tục phân vùng lượng tử hóa vectơ (VQ) Trọng tâm vùng tiêu biểu codeword vốn mục đến codebook Mỗi mẫu tiếng nói đổi thành codeword cách tìm vector gần codebook Mỗi codebook có M codeword gọi codebook cỡ M M số kí hiệu quan sát trạng thái HMM Như vậy, HMM rời rạc, số quan sát hữu hạn Nhược điểm mơ hình dạng có sai số q trình lượng tử hố (nếu kích thước codebook nhỏ) Ngược lại kích thước codebook lớn phải trả giá số lượng tính tốn tăng lên Trong nghiên cứu sử dụng thuật toán Split Binary (hay thuật toán LBG) [6] 2.4 Ước lượng tham số mơ hình HMM Đối với từ từ vựng, xây dựng mơ hình HMM cách ước lượng thơng số mơ hình cách tối ưu dựa chuỗi dữ liệu quan sát trình huấn luyện Trong nghiên cứu sử dụng thuật toán Baum-Welch [6], [8], những phương pháp tối ưu thành công 2.5 Nhận dạng Đối với từ cần nhận dạng, hệ thống tính tốn mơ hình có khả với tất mơ hình huấn luyện chọn mơ hình có khả nhất.Một phương pháp thơng dụng hay dùng để giải toán dùng thuật tốn tìm kiếm Viterbi [9] Đây NGUYỄN TÚ HÀ 116 thuật tốn dựa phương pháp lập trình động (Dynamic Programing Method) để tìm dãy trạng thái tối ưu THỰC NGHIỆM VÀ KẾT QUẢ 3.1 Thực nghiệm Trong nghiên cứu này, chọn từ để huấn luyện là:tắt, bật, tivi, tăng, giảm, chuyển, âm, kênh, một, hai, ba, bốn, năm, sáu, bảy, tám, chín, khơng;và câu lệnh điều khiển tivi có cú pháp: Cơ sở dữ liệu xây dựng nghiên cứu thu thập từ 150 người nói gồm 70 nam 80 nữ, có độ tuổi từ 18 đến 30 Các người nói hướng dẫn phát âm chuẩn theo tốc độ định việc thu âm thực phòng thu nhiễu Các tập tin âm thu từ chương trình Adobe Audition, sử dụng PCM, lấy mẫu tần số 16.000Hz với 16bit lưu trữ định dạng WAV Việc thu âm thực gồm hai mục đích, thu âm để chuẩn bị sở dữ liệu cho q trình huấn luyện mơ hình cho trình nhận dạng 3.2 Phương pháp đánh giá Để đánh giá hệ thống, nghiên cứu sử dụng phương pháp thực nghiệm với thống kê so sánh kết trực tiếp Mỗi nhóm dữ liệu thực nghiệm đọc vào cách ngẫu nhiên ghi nhận kết trả từ chương trình, sau tính tỉ lệ nhận dạng từ đúng, tỉ lệ nhận dạng lỗi sai Đối với trình huấn luyện kiểm tra, kết chia thành nhóm: nhóm 100 người huấn luyện nhóm 50 người không huấn luyện 3.2 Kết thực nghiệm - Kết nhận dạng từ Bảng Kết nhận dạng từ Nhóm liệu Tổng Nhận dạng Tỉ lệ 100 người huấn luyện Từ 800 782 97,75% Số 1000 981 98.10% 50 người Từ 400 385 96,25% KẾT HỢP PHƯƠNG PHÁP LƯỢNG TỬ HÓA VECTOR VÀ không huấn luyện Số 500 117 479 95,80% - Kết nhận dạng câu lệnh Bảng Kết nhận dạng câu lệnh (100 người huấn luyện) Câu lệnh Tổng Nhận dạng Tỉ lệ BẬT_TIVI 1000 968 96,8% TẮT_TIVI 1000 925 92,5% TĂNG_ÂM 1000 923 92,3% GIẢM_ÂM 1000 976 97,6% TĂNG_KÊNH 1000 934 93,4% GIẢM_KÊNH 1000 979 97,9% CHUYỂN KÊNH 1000 967 96,7% Bảng Kết nhận dạng câu lệnh (50 người không huấn luyện) Câu lệnh BẬT_TIVI TẮT_TIVI TĂNG_ÂM GIẢM_ÂM TĂNG_KÊNH GIẢM_KÊNH CHUYỂN KÊNH Tổng 1000 1000 1000 1000 1000 1000 1000 Nhận dạng 923 879 824 935 859 891 932 Tỉ lệ 92,3% 87,9% 82,4% 93.5% 85,9% 89,1% 93,2% KẾT LUẬN Dựa kết thực nghiệm, nghiên cứu xây dựng thành cơng mơ hình nhận dạng tiếng nói với tỷ lệ thành công tương đối tốt Tuy nhiên, cần nghiên cứu phát triển thêm: Xây dựng sở dữ liệu lớn để huấn luyện cho mơ hình tốt Đồng thời phát triển thêm từ vựng để điều khiển thiết bị phong phú Tích hợp thêm giải pháp giảm nhiễu khối tiền xử lý để nâng cao hiệu xuất nhận dạng ứng dụng mơi trường có nhiễu cao Tích hợp hệ thống nhận dạng tiếng nói chip DSP, FPGA để ứng dụng thuận tiện đóng gói thành sản phẩm hồn thiện.… NGUYỄN TÚ HÀ 118 TÀI LIỆU THAM KHẢO [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] Phạm Văn Tuấn (2011) Bài giảng nhận dạng tiếng nói, Đại học Bách khoa Đà Nẵng Lê Tiến Thường (2002) Xử lý số tín hiệu Wavelets-Tập 1, NXB Đại học Quốc gia TP Hồ Chí Minh Gales M and S Young (2007) The Application of Hidden Markov Models in Speech Recognition, Foundations and Trends in Signal Processing, Vol.1, No.2, p.p 195-304 Rabiner, L R (1989) A tutorial on hidden Markov models and selected applications in speech recognition, Proceedings of IEEE, vol 77, no 2, pp 257–286 Juang, B H and Rabiner, L R (1991) Hidden Markov Models for Speech Recognition, Technometrics, Vol.33, No.3, pp 251-272 Linde, Y., Buzo, A., and Gray, R M (1980) An Algorithm for Vector Quantizer, IEEE Transactions on Communication, Vol.28, No.1, pp 84-95 Segura, J C., Rubio, A J., Peinado, A M., Garcia, P., and Roman, R (1994) Multiple VQ Hidden Markov Modeling for Speech Recognition, Speech Communication, Vol.14, pp 163-170 Balwant, A., Sonkamble, D and Doye, D (2012) Speech Recognition Using Vector Quantization through Modified K-means LBG Algorithm, Computer Engineering and Intelligent Systems, ISSN 2222, Vol.3, No.7, pp.137-144 Rabiner, L R and Juang, B.H (1993) Fundamentals of speech recognition, PrenticeHall International, Inc Le, V.B and Besacierm, L (2009) Automatic Speech Recognition for UnderResourced Languages: Application to Vietnamese Language, IEEE Title: USING THE COMBINATION OF VECTOR QUANTIZATION METHOD AND HIDDEN MARKOV MODELS FOR VIETNAMESE SPEECH RECOGNITION - APLLYING FOR CONTROL THE TELEVISION Abstract: Researching and inventing speech recognitionmethods have been paid much considerations bymany scientists over the world However, the achievements don’t satisfy researchers’ demandsbecause of the complexity and unstability of speech until now Especially with Vietnamese speech, theresults are more unsatisfied.The paper suggests asynthetic method for recogniting Vietnamesespeech, is based on the combination of Vector Quantization (VQ) method and Hidden Markov Models (HMMs).Theresults are experimented through a model of remote control television Keywords: Speech-recognition; Vector Quantization; HMM ... V Hình Quá trình nhận dạng từ rời rạc mơ hình VQ/HMM KẾT HỢP PHƯƠNG PHÁP LƯỢNG TỬ HÓA VECTOR VÀ 115 2.1 Ti n xử lý Tín hiệu ti ng nói sau thu trước trích chọn đặc trưng, phải ti n hành ti n... thơng tin quan trọng, đặc trưng, ổn định tín hiệu ti ng nói Đối với hệ nhận dạng ti ng nói, vi c trích chọn đặc trưng ti ng nói cần thiết Điều giúp giảm thiểu số lượng dữ liệu vi c huấn luyện nhận. .. PHƯƠNG PHÁP LƯỢNG TỬ HĨA VECTOR VÀ khơng huấn luyện Số 500 117 479 95,80% - Kết nhận dạng câu lệnh Bảng Kết nhận dạng câu lệnh (100 người huấn luyện) Câu lệnh Tổng Nhận dạng Tỉ lệ BẬT_TIVI 1000

Ngày đăng: 13/02/2020, 02:48