Nhận dạng tiếng Việt sử dụng biến đổi Wavelet và mô hình Markov ẩn

15 357 0
Nhận dạng tiếng Việt sử dụng biến đổi Wavelet và mô hình Markov ẩn

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nhận dạng tiếng Việt sử dụng biến đổi Wavelet mơ hình Markov ẩn Phùng Trung Nghĩa Trường Đại học Giáo dục Luận văn ThS chuyên ngành: Kỹ thuật Điện tử - Viễn thông; Mã số: 07 00 Người hướng dẫn: TS Trịnh Anh Vũ Năm bảo vệ: 2006 Abstract: Tổng quan nhận dạng tiếng nói, xử lý tiếng nói, rút trích vector đặc trưng nghiên cứu biến đổi wavelet, mơ hình Markov ẩn HMM ứng dụng nhận dạng tiếng nói Khảo sát đặc điểm ngữ âm tiếng Việt âm vị tiếng Việt, điệu tiếng Việt Từ xây dựng hệ thống nhận dạng điệu tiếng Việt theo chu kỳ, nhận dạng tiếng Việt nguyên từ rời rạc có áp dụng phân lớp theo điệu, dùng vectơ đặc trưng SCWT mơ hình HMM trái phải trạng thái Đồng thời xây dựng tiền xử lý nâng cao chất lượng tiếng nói dùng kỹ thuật triệt nhiễu kết hợp kỹ thuật trừ phổ kỹ thuật triệt nhiễu wavelet Keywords: Mơ hình Markov ẩn; Nhận dạng lời nói; Tin học; Tiếng Việt; Wavelet Content Thơng tin tiếng nói loại hình thơng tin phổ biến hệ thống viễn thông Do lĩnh vực nghiên cứu tiếng nói xử lý tiếng nói nhiều nhà nghiên cứu ngành điện tử viễn thông quan tâm Về tiếng nói loại tín hiệu chiều điển hình nên kiến thức xử lý tín hiệu hồn tồn áp dụng với tín hiệu tiếng nói Đó điều thuận lợi nhà nghiên cứu xử lý tiếng nói lý thuyết cơng nghệ xử lý tín hiệu có bước phát triển to lớn ứng dụng rộng rãi thời gian gần Xử lý tiếng nói bao gồm nhiều lĩnh vực triệt nhiễu nâng cao chất lượng tiếng nói, mã hóa nén tiếng nói, tổng hợp tiếng nói, nhận dạng tiếng nói, Lĩnh vực nhận dạng tiếng nói có nhiều ứng dụng thực tế điều khiển (thiết bị, robot, máy tính) tiếng nói, chuyển tiếng nói thành văn bản, dịch tự động, đặt hàng, giao dịch ngân hàng tự động qua mạng điện thoại, quay số điện thoại tiếng nói, hộp thư thoại tự động, Nhận dạng tiếng nói nghiên cứu nhiều giới thu nhiều kết quan trọng, số sản phẩm nhận dạng tiếng nói ứng dụng thực tiễn Tuy nhiên mức độ xác hầu hết hệ thống nhận dạng chưa thật cao, tính ứng dụng thực tiễn thấp Đặc biệt, vấn đề giới có nhiều ngơn ngữ, ngơn ngữ lại có đặc điểm ngữ âm riêng, nên khó xây dựng hệ thống nhận dạng tiếng nói sử dụng tốt cho tất ngơn ngữ Trong hệ thống nhận dạng tiếng nói tiếng Anh cho độ xác cao hệ thống nhận dạng tiếng Việt, tiếng Thái, có độ xác chưa cao cần phải nghiên cứu nhiều ứng dụng nhiều thực tiễn Tại Việt Nam, từ Công nghệ Viễn thông Công nghệ Thông tin bắt đầu phát triển đầu năm 80 có nhà nghiên cứu mạnh dạn vào lĩnh vực nhận dạng tiếng nói tiếng Việt (GS.TSKH Bạch Hưng Khang, nguyên Viện trưởng Viện Công nghệ thông tin, Viện Khoa học &Cơng nghệ Việt Nam) Từ đến nhiều cơng trình nghiên cứu nhận dạng tiếng Việt đời thu kết quan trọng [1, 2, 5, 6, 7, 10, 11, 12, 15, 16], nhiên thực tế chưa có hệ thống nhận dạng tiếng Việt hoàn chỉnh, xác có tính ứng dụng cao thực tiễn Vì nghiên cứu nhận dạng tiếng Việt hướng nghiên cứu “nóng” thời gian tới Việt Nam Biến đổi wavelet đời ví cách mạng lĩnh vực xử lý tín hiệu, biến đổi wavelet sử dụng thay biến đổi Fourier truyền thống nhiều hệ thống xử lý tín hiệu Trong lĩnh vực xử lý, nhận dạng tiếng nói, biến đổi wavelet có nhiều ứng dụng Trên giới có hệ thống nhận dạng tiếng Anh dùng biến đổi wavelet cho độ xác cao Tại Việt Nam bắt đầu có nghiên cứu sử dụng biến đổi wavelet để rút trích vector đặc trưng nhận dạng tiếng Việt [15], nhiên nghiên cứu dừng lại mức độ kiểm chứng phương pháp nhận dạng tiếng Việt chưa xây dựng hệ thống nhận dạng tiếng Việt hoàn chỉnh hiệu Ngoài việc xác định vector đặc trưng hiệu quả, để hệ thống nhận dạng độc lập người nói, phụ thuộc vào mơi trường điều kiện nói (bản chất tiếng nói từ phát âm khác người với thân người điều kiện khác nhau) tăng số lượng từ nhận dạng cơng việc phân lớp huấn luyện mẫu quan trọng Có nhiều phương pháp để phân lớp huấn luyện mẫu sử dụng mạng Neural nhân tạo (ANN), mô hình Markov ẩn (HMM), mơ hình SVM, Đối với hầu hết ngôn ngữ giới tiếng Anh, mơ hình HMM xem mơ hình hiệu nhất, hầu hết nghiên cứu nhận dạng tiếng Việt sử dụng phương pháp ANN [1, 2, 5, 7,11], số khác theo hướng tiếp cận dùng HMM [4, 13] Tiếng Việt ngôn ngữ có điệu, điểm khác biệt lớn tiếng Việt so với ngôn ngữ khác tiếng Anh, tiếng Pháp điệu So với ngôn ngữ điệu khác tiếng Thái, tiếng Hoa, tiếng Việt lại có đặc điểm ngữ âm điệu riêng Bài toán nhận dạng điệu tốn nghiên cứu nhiều nhận dạng tíếng Việt [2, 12, 16] Một khác biệt tiếng Việt so với ngôn ngữ khác đặc điểm ngữ âm âm vị Do khác biệt này, mơ hình nhận dạng theo âm vị tiếng Việt có điểm khác biệt so với hệ thống nhận dạng khác Luận văn thừa kế vấn đề lý thuyết nghiên cứu kiểm chứng nước, sử dụng nghiên cứu biến đổi wavelet mơ hình HMM để áp dụng đề xuất phương pháp nhận dạng điệu tiếng Việt theo chu kỳ pitch xây dựng hệ thống nhận dạng điệu theo chu kỳ pitch Kết nhận dạng điệu thu 95 % Tiếp theo, luận văn đề xuất phương pháp nhận dạng tiếng Việt nguyên từ rời rạc hồn chỉnh Phương pháp sử dụng mơ hình nhận dạng điệu tiếng Việt khảo sát để phân lớp sử dụng vector đặc trưng hệ số SCWT biến đổi sang miền Ceptral Ngoài việc nhận dạng tiếng nói thu âm sẵn, hệ thống thu âm nhận dạng tiếng nói trực tiếp từ micro xây dựng với tiền xử lý nâng cao chất lượng tiếng nói dùng phương pháp triệt nhiễu kết hợp kỹ thuật trừ phổ kỹ thuật triệt nhiễu dùng biến đổi wavelet Các kết thu độ xác hệ thống nhận dạng 91 % chút so với hệ thống nhận dạng truyền thống dùng MFCC ANN Mặc dù có nhiều nghiên cứu nhận dạng tiếng Việt dùng MFCC ANN, có nhiều cải tiến, nhiều đề xuất độ xác hệ thống nhận dạng khơng tăng nhiều Trong hồn cảnh đó, việc xây dựng hệ thống nhận dạng dùng phương pháp khác cho chất lượng gần tương đương có ý nghĩa Nếu đầu tư nghiên cứu nhiều hơn, phương pháp nhận dạng tiếng Việt dùng SCWT HMM có phân lớp điệu theo chu kỳ pitch phương pháp hứa hẹn có khả nâng cao độ xác hệ thống nhận dạng ứng dụng thực tiễn References Tiếng Việt [1] Hồng Đình Chiến, Lê Tiến Thường (2005), “Nhận dạng tiếng Việt dùng mạng Neural kết hợp với trích đặc trưng LPC AMDF”, Hội thảo CNTT Quốc Gia [2] Hồng Đình Chiến, “Nhận dạng tiếng Việt dùng mạng Neural kết hợp với trích đặc trưng LPC AMDF”, Chun san Tạp chí BCVT [3] Hà Đình Dũng, Nguyễn Kim Quang (2003), “Xây dựng giảm nhiễu sử dụng phương pháp trừ phổ ứng dụng hệ thống nhận dạng tiếng nói”, Báo cáo hội thảo quốc gia CNTT, Thái Nguyên [4] Đỗ Xuân Đat, Võ Văn Tuấn (2003), Nghiên cứu đặc trưng tiếng Việt áp dụng vào nhận dạng tiếng nói, Luận văn tốt nghiệp Cử nhân CNTT, Đại học KHTN TP Hồ Chí Minh [5] Đặng Ngọc Đức, “Ứng dụng mạng neural nhận dạng tiếng nói mười chữ số tiếng Việt”, Chuyên san Tạp chí BCVT [6] Đặng Ngọc Đức, “Gán nhãn âm vị trình xây dựng CSDL tiếng Việt”, Chuyên san Tạp chí BCVT [7] Đặng Ngọc Đức, Lương Chi Mai, “Tăng cường độ xác mạng neural nhận dạng tiếng Việt”, Chun san Tạp chí BCVT [8] Nguyễn Hồng Hải, Hà Trần Đức, Nguyễn Việt Anh (2005), Công cụ phân tích wavelet ứng dụng MATLAB, NXB Khoa học kỹ thuật [9] Bùi Huy Hải (2004), Nén tín hiệu tiếng nói dùng biến đổi Wavelet, Luận văn thạc sỹ khoa học, ĐH Bách Khoa Hà Nội [10] Trịnh Văn Loan, Nguyễn Nam Hà, Phạm Việt Hà, “Xác đinh tham số đặc trưng nguyên âm không dấu tiếng Việt”, Chuyên san Tạp chí BCVT [11] Lương Chi Mai, Đặng Ngọc Đức (2005), “Hệ thống nhận dạng tiếng việt khơng dấu liên tục có từ vựng kích thước trung bình”, Hội thảo CNTT Quốc Gia, Hải Phịng [12] Nguyễn Thị Thanh Mai, Ngơ Hồng Huy, Nguyễn Huy Hoàng (2005), “Nhận dạng điệu tiếng Việt tiếng nói rời rạc phụ thuộc người nói”, Hội thảo CNTT Quốc Gia, Hải Phòng [13] Nguyễn Hồng Quang (2004), Nhận dạng tiếng nói tiếng Việt tìm hiểu ứng dụng, Luận văn tốt nghiệp Cử nhân CNTT, Đại học KHTN TP Hồ Chí Minh [14] Nguyễn Đình Thơng (2005), “Tài liệu hướng dẫn báo cáo phần Xử lý ảnh tín hiệu”, Hệ Cao học, Đại học Quốc gia Hà nội [15] Lê Tiến Thường, Hồng Đình Chiến, Trần Thanh Hùng (2004), “Phương pháp hiệu nhận dạng tiếng Việt ứng dụng phép biến đổi Wavelet”, Chuyên san Tạp chí BCVT [16] Lê Tiến Thường, Huỳnh Ngọc Phiên, “Phương pháp trích chu kỳ cao độ trung bình nhận dạng điệu tiếng Việt”, Chuyên san Tạp chí BCVT, 2005 [17] Lê Tiến Thường, Hồng Đình Chiến, “Biến đổi wavelets, subband coding số ứng dụng xử lý tín hiệu” [18] Nguyễn Quốc Trung (2002), Xử lý tín hiệu lọc số, tập 1,2 NHB KHKT [19] Nguyễn Quốc Trung (2002), Bài giảng mơn Xử lý tín hiệu nâng cao, Hệ cao học, ĐH Bách Khoa Hà Nội Tiếng Anh [20] Donoho, D L.(1995), “Denoising via soft thresholding'', IEEE Trans Information Theory, 41: pp 613-627 [21] Bob Dunn (29 April 2003), Speech Signal Processing and Speech Recognition [22] Christine Englund (2004), “Speech recognition in the JAS 39 Gripen aircraft adaptation to speech at different G-loads”, pp – [23] R Favero and R King, (1993) Wavelet parameterization for speech recognition, Preprint [24] Qiang Fu (2003), “A novel speech enhancement system based on wavelet denoising” [25] Yi Hu, Student Member, IEEE, and Philipos C Loizou, Member, IEEE, (2003), “Speech Enhancement Based on Wavelet Thresholding the Multitaper Spectrum” [26] M Krishnan, C Neophytou, and G Prescott (1994) Wavelet transform speech recognition using vector quantization, dynamic time wraping and articicial neural networks Preprint [27] S.Manikandan (2006), “Speech enhancement based on wavelet denoising” [28] Lawrence Rabiner and Biing-Hwang Juang (1993), Fundamentals of Speech Recognition, Prentice Hall [29] Gibert Strang, Truong Nguyen (1996), Wavelet and Filter Banks, Weliesley- Cambridge Press, The United States of America [30] H Talhami, T.Le-Tien, D.T Nguyen, (1997), “Simple algorithm for wavelet maxima modulus extraction in time-scale representation”, IEEE Electronic Letter, An Internaltional Publication, England, Vol.33 [31] Beng T TAN, Minyue Fu, Andrew Spray (2000), “The use of wavelet transforms in phoneme recognition” [32] Le Tien Thuong, Nguyen Huu Loc (1998), “An efficient algorithm for ridge extraction in time-scale and time-frequency representations” [33] Keiichi Tokuda, HMM-Based Speech Synthesis toward Human-like Talking Machines ... dụng cao thực tiễn Vì nghiên cứu nhận dạng tiếng Việt hướng nghiên cứu “nóng” thời gian tới Việt Nam Biến đổi wavelet đời ví cách mạng lĩnh vực xử lý tín hiệu, biến đổi wavelet sử dụng thay biến. .. nên khó xây dựng hệ thống nhận dạng tiếng nói sử dụng tốt cho tất ngôn ngữ Trong hệ thống nhận dạng tiếng nói tiếng Anh cho độ xác cao hệ thống nhận dạng tiếng Việt, tiếng Thái, có độ xác chưa... biến đổi Fourier truyền thống nhiều hệ thống xử lý tín hiệu Trong lĩnh vực xử lý, nhận dạng tiếng nói, biến đổi wavelet có nhiều ứng dụng Trên giới có hệ thống nhận dạng tiếng Anh dùng biến đổi wavelet

Ngày đăng: 17/02/2017, 07:06

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan