1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

Nhận dạng tiếng nói tiếng việt sử dụng mô hình chuỗi markov ẩn và mạng nơ ron

114 288 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 114
Dung lượng 1,38 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - LUẬN VĂN THẠC SĨ KHOA HỌC NGÀNH: ĐO LƯỜNG VÀ CÁC HỆ THỐNG ĐIỀU KHIỂN NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT SỬ DỤNG MÔ HÌNH CHUỖI MARKOV VÀ MẠNG NƠ-RON NGUYỄN TUẤN HẢI Người hướng dẫn Luận văn: NGUYỄN QUỐC CƯỜNG Hà Nội, 2010 Lời cảm ơn Sau thời gian nỗ lực nghiên cứu thực đề tài, với vấn đề mới, gặp nhiều khó khăn, với giúp đỡ nhiệt tình thầy cô giáo hoàn thành đề tài “Nhận dạng tiếng nói tiếng Việt sử dụng mô hình chuỗi Markov ẩn mạng nơ-ron” Đặc biệt xin gửi tới TS Nguyễn Quốc Cường lòng biết ơn sâu sắc, người trực tiếp hướng dẫn giúp đỡ tìm hiểu, tiếp cận với lĩnh vực nhận dạng tiếng nói Tôi xin cảm ơn thầy cô giáo môn Kỹ thuật đo & Tin học Công nghiệp toàn thể thầy cô giáo chương trình đào tạo thạc sĩ trường Đại Học Bách Khoa Hà Nội tận tình hướng dẫn bảo thời gian học thực luận văn Tôi xin gửi lời cảm ơn đến tất bạn bè, người thân giúp đỡ suốt trình vừa qua Vì điều kiện thời gian khả thân hạn chế, luận văn không tránh khỏi thiết sót Tôi mong Quý thầy cô toàn thể bạn đồng nghiệp dẫn cho Hà Nội, ngày 27 tháng 04 năm 2010 Học viên Nguyễn Tuấn Hải MỤC LỤC MỤC LỤC Lời nói đầu CHƯƠNG I TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI I.1 NHẬN DẠNG TIẾNG NÓI .1 I.2 CÁC PHƯƠNG PHÁP TIẾP CẬN TRONG NHẬN DẠNG TIẾNG NÓI .2 I.2.1 Phương pháp âm học- ngữ âm học I.2.2 Phương pháp nhận dạng mẫu I.2.3 Phương pháp ứng dụng trí tuệ nhân tạo .6 CHƯƠNG II PHÂN TÍCH THAM SỐ TIẾNG NÓI II.1 PHÁT HIỆN ĐIỂM ĐẦU CUỐI CỦA TIẾNG NÓI II.1.1 Hàm lượng ngắn hạn II.1.2 Phát điểm đầu cuối tiếng nói 10 II.2 PHÂN TÍCH CEPSTRAL THÔNG QUA MÃ HÓA TIÊN ĐOÁN TUYẾN TÍNH11 II.2.1 Các phương trình phân tích LPC 11 II.2.2 Bộ xử lý LPC áp dụng vào nhận dạng tiếng nói 13 II.3 PHÂN TÍCH CEPSTRAL TRÊN THEO THANG ĐO MEL 17 CHƯƠNG III MẠNG NƠ-RON NHÂN TẠO 23 III.1 MẠNG NƠ-RON NHÂN TẠO .23 III.2 QUÁ TRÌNH HỌC CỦA MẠNG NƠ-RON 31 CHƯƠNG IV MÔ HÌNH CHUỖI MARKOV ẨN VÀ VẤN ĐỀ NHẬN DẠNG TIẾNG NÓI 33 IV.1 MÔ HÌNH MARKOV ẨN 33 IV.2 BA BÀI TOÁN CƠ BẢN ĐỐI VỚI MÔ HÌNH MARKOV ẨN 36 IV.2.1 Bài toán 1: Đánh giá xác suất 36 IV.2.2 Bài toán 2: Tìm dãy trạng thái tối ưu 37 IV.2.3 Bài toán 3: Ước lượng tham số mô hình 38 IV.3 NHẬN DẠNG TIẾNG NÓI SỬ DỤNG MÔ HÌNH MARKOV 38 CHƯƠNG V MÔ HÌNH HYBRID KẾT HỢP MẠNG NƠ-RON VÀ MÔ HÌNH CHUỖI MARKOV ẨN 41 V.1 DÙNG MẠNG NƠ-RON ƯỚC LƯỢNG XÁC SUẤT HẬU NGHIỆM .41 V.2 CÁC MẠNG NƠ-RON NHƯ LÀ CÁC BỘ LƯỢNG TỬ HÓA VECTOR .47 V.2.1 Mạng nơ-ron cho việc lượng tử hóa véc tơ (VQ) dựa tiêu chuẩn tối đa hóa thông tin tương hỗ (MMI) 47 V.2.2 Các gán nhãn nơ-ron (neural labelers) .50 V.3 SO SÁNH HAI MÔ HÌNH HYBRID .56 CHƯƠNG VI XÂY DỰNG CHƯƠNG TRÌNH NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT 59 VI.1 LỰA CHỌN MÔ HÌNH CHO BÀI TOÁN NHẬN DẠNG TIẾNG VIỆT 59 VI.1.1 Hệ thống nhận dạng lời nói đề xuất 59 VI.1.2 Thực module Matlab 61 VI.1.3 XÂY DỰNG CHƯƠNG TRÌNH NHẬN DẠNG TIẾNG VIỆT .62 VI.2 KẾT QUẢ THỰC HIỆN CHƯƠNG TRÌNH 63 VI.3 KẾT LUẬN VÀ PHƯƠNG HƯỚNG PHÁT TRIỂN 64 Tài liệu tham khảo 66 Bảng 5.1 Tỷ lệ lỗi lớp từ câu cho hệ thống 46 Bảng Các kết nhận dạng với sở DARPA RM độc lập người nói.50 Bảng 5.3 So sánh kết dựa phương pháp 54 Bảng 5.4 So sánh kết LVQ, VQ MLP với việc sử dụng HMM nhiều codebook 55 Bảng 5.5 Kết nhận dạng với mô hinh HMM 57 Bảng 5.6 Kết sử dụng MLP gán nhãn 57 Bảng 5.7 Kết sử dụng MLP để ước lượng xác suất hậu nghiệm 58 Bảng 6.1.Kết kiểm tra 50 mẫu kiểm tra cho từ 64 Lời nói đầu Trong năm gần đây, việc áp dụng kỹ thuật xử lý tiếng nói, tổng hợp tiếng nói, nhận dạng tiếng nói mạng điện thoại ngày gia tăng nhanh chóng Một toán quan trọng có nhiều ứng dụng nhận dạng mười chữ số phát âm liên tục thu âm mạng điện thoại Đây toán nhận dạng thuộc phạm vi nhận dạng từ liên tục với số lượng từ vựng nhỏ Có nhiều ứng dụng gắn với toán như: nhận dạng số thẻ tín dụng giọng nói, nhận dạng số tài khoản, nhận dạng mã số cá nhân, quay số giọng nói, Hiện giới có số hệ thống nhận dạng tiếng nói cỡ lớn, có độ xác tương đối cao Các hệ thống chủ yếu phát triển công nghệ đại với máy tính lớn, vi mạch xử lý tiếng nói chuyên dụng sử dụng sở liệu tiếng nói hoàn chỉnh Đối với tiếng Việt, việc nghiên cứu nhận dạng tiếng nói nói chung nhận dạng tiếng nói thu âm qua điện thoại nói riêng bước đầu chưa có nhiều kết công bố Từ thực tiễn trên, đồ án thực nhằm đưa số vấn đề xây dựng hệ nhận dạng tiếng nói giới thiệu hướng tiếp cận nhận dạng tiếng Việt Đó sử dụng mạng nơ-ron nhân tạo với thuật toán học khả phân loại mẫu mạnh kết hợp với phương pháp mô hình Markov ẩn (HMM) Cụ thể sử dụng mạng nơ-ron lượng tử hóa vector liệu tiếng nói đưa vào mô hình HMM từ đưa kết nhận dạng Nội dung đồ án trình bầy sau: Chương I, chương giới thiệu khái niệm trọng nhận dạng tiếng nói phương pháp tiếp cận nhận dạng tiếng nói Chương II trình bày số kỹ thuật phân tích đặc trưng tiếng nói Các công cụ quan trọng sử dụng kỹ thuật nhận dạng tiếng nói Chương III đưa lý thuyết tổng quan mạng nơ-ron Chương IV đề cập tới khái niệm mô hình Markov ẩn ứng dụng trọng nhận dạng tiếng nói Chương V giới thiệu mô hình hybrid kết hợp mạng nơ-ron mô hình Markov ẩn nhận dạng tiếng nói Chương VI trình bày bước xây dưng chương trình nhận dạng tiếng nói dựa mô hình Hybrid, sử dụng mạng nơ-ron lượng tử hóa vector cho mô hình markov ẩn Nguyễn Tuấn Hải – Lớp cao học đo lường hệ thống điều khiển 2007-2009 Chương I Tổng quan nhận dạng tiếng nói CHƯƠNG I TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI I.1 NHẬN DẠNG TIẾNG NÓI Nhận dạng tiếng nói làm cho máy hiểu, nhận biết ngữ nghĩa lời nói Thực chất trình biến đổi tín hiệu âm thu qua micro, qua đường dây điện thoại thiết bị thu âm khác,… thành chuỗi từ, sau từ nhận dạng, kết sử dụng ứng dụng điều khiển thiết bị, nhập liệu, soạn thảo văn lời, đưa đến trình xử lý ngôn ngữ mức cao Các hệ thống nhận dạng tiếng nói phân thành loại sau: - Nhận dạng từ phát âm rời rạc/ liên tục - Nhận dạng tiếng nói phụ thuộc người nói/ không phụ thuộc người nói: - Hệ thống nhận dạng có từ điển cỡ nhỏ (

Ngày đăng: 19/07/2017, 22:47

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Lawrence Rabiner and Biing-Hwang Juan, “Fundamentals of Speech Recognition”, Prentice Hall, 1993 Sách, tạp chí
Tiêu đề: Fundamentals of Speech Recognition
[2]. Steve Yuong et al, “the HTK Book (for HTK version 3.0)”, Microsoft Corpration, 2000 Sách, tạp chí
Tiêu đề: the HTK Book (for HTK version 3.0)
[3]. R.P.Lippmann, “Review of neural networks for speech recognition,” Neural Computation, vol. 1, pp. 1-38, 1989.) Sách, tạp chí
Tiêu đề: Review of neural networks for speech recognition
[4]. A. Waibel, T. Hanazawa, G. Hinton, K. Shikano and K.Lang, “Phoneme recognition using time-delay neural networks” , IEEE Trans. On Acounst., Speech, and Signal Processing, vol. 37, no. 3, pp. 328-339, March 1989 Sách, tạp chí
Tiêu đề: Phoneme recognition using time-delay neural networks
[5]. K. Lang, A. Waibel and G. Hinton, “A time-delay neural network architecture for isolate word recognition” , Neural Networks, vol. 3.,pp. 23- 43, 1990 Sách, tạp chí
Tiêu đề: A time-delay neural network architecture for isolate word recognition
[6]. Gigoll, G. “Maximum Matual Information Neural Networks for Hybrid Connectionist-HMM Speech Recognition Systems”. IEEE Transactions on Speech anh Audio Processing, Vol. 2, No. 1, Special Issue on Neural Networks for Speech Processing, pp. 175-184 Sách, tạp chí
Tiêu đề: Maximum Matual Information Neural Networks for Hybrid Connectionist-HMM Speech Recognition Systems
[7]. Neukirchen, C. & Rigoll, G (1996) “Training of MMI neural Networks as Vector Quantizers”, Internal Report, Gerhard-Mercator-University Duisburg, Faculty of Electrical Engineering Sách, tạp chí
Tiêu đề: Training of MMI neural Networks as Vector Quantizers
[8]. G.Rigoll, Ch. Neukirchen, J.Rottland, “A new hybrid system based on MMI-Neural Networks for the RM speech recognition task”, Proc. IEEE- ICASSP, 1996, pp.865-868 Sách, tạp chí
Tiêu đề: A new hybrid system based on MMI-Neural Networks for the RM speech recognition task
[9]. Michael T. J. McGuire, “Neural Networks for Pre and Postprocessing in s Hidden Markov Model Based Speech Recognizer” Sách, tạp chí
Tiêu đề: Neural Networks for Pre and Postprocessing in s Hidden Markov Model Based Speech Recognizer
[10]. Edmondo Trentin anh Marco Gori – “A Survey of Hybrid ANN/HMM Models for Automatic Speech Recognition” Sách, tạp chí
Tiêu đề: A Survey of Hybrid ANN/HMM Models for Automatic Speech Recognition
[11]. Yonghong Yan, Mark Fanty, Ron Cole, “Speech recognition using neural networks with forward-backward probability generated targets” Sách, tạp chí
Tiêu đề: Speech recognition using neural networks with forward-backward probability generated targets
[12]. G.Rigoll, Ch.Neukirchen, J.Rottland, “Large vocabulary Speaker- independent continuous speech recognition with a new Hybrid system based on MMI-Neural networks” Sách, tạp chí
Tiêu đề: Large vocabulary Speaker-independent continuous speech recognition with a new Hybrid system based on MMI-Neural networks
[13]. P.Le Cerf, W. Ma, D. Van Compernolle. “Multilayer Perzeptrons as Labeler for Hidden Markov Models”. IEEE Trans. Speech Audio Processing, Vol2, No. 1, Jan. 1994, pp. 185-193 Sách, tạp chí
Tiêu đề: Multilayer Perzeptrons as Labeler for Hidden Markov Models”
[14]. J. Rottland, Ch. Neukirchen, D. Willett, G. Rigoll, “Larg vocabulary speaker-independent continuous speech recognition” Sách, tạp chí
Tiêu đề: Larg vocabulary speaker-independent continuous speech recognition
[15]. Philippe Le Cerf, Bart Bayens, Dirk Van Comperolle,“speech Labeling with Euclidean VQ, LVQ and MLP’s: a Comparative Study” Sách, tạp chí
Tiêu đề: “speech Labeling with Euclidean VQ, LVQ and MLP’s: a Comparative Study
[16]. Vincent Fontaine, Christophe Ris, Henri Leich. “Comparison betwen two Hybrid HMM/MLP in speech recognition” Sách, tạp chí
Tiêu đề: Comparison betwen two Hybrid HMM/MLP in speech recognition
[17]. Nguyễn Hồng Quang, “Nhận dạng tiếng nói tiếng Việt liên tục dựa trên mô hình Markov ẩn và giải thuật so sánh thời gian động DTW”, Luận văn thạc sĩ khoa học, Hà nội -2002 Sách, tạp chí
Tiêu đề: Nhận dạng tiếng nói tiếng Việt liên tục dựa trên mô hình Markov ẩn và giải thuật so sánh thời gian động DTW
[19]. Waleed H.Abdulla, Nikola K. Kasabov, “The Concepts of Hidden Markov Model in Speech Recognition” Sách, tạp chí
Tiêu đề: The Concepts of Hidden Markov Model in Speech Recognition
[20]. H. Bourlard and C. Wellekens. “Links between hidden Markov models and multilayer perceptrons”. IEEE Transactions on Pattern Analysis and Machine Intelligence, 12:1167-1178, 1990] Sách, tạp chí
Tiêu đề: Links between hidden Markov models and multilayer perceptrons

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w