Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 114 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
114
Dung lượng
1,31 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - LUẬN VĂN THẠC SĨ KHOA HỌC NGÀNH: ĐO LƯỜNG VÀ CÁC HỆ THỐNG ĐIỀU KHIỂN NHẬN DẠNG TIẾNG NĨI TIẾNG VIỆT SỬ DỤNG MƠ HÌNH CHUỖI MARKOV VÀ MẠNG NƠ-RON NGUYỄN TUẤN HẢI Người hướng dẫn Luận văn: NGUYỄN QUỐC CƯỜNG Hà Nội, 2010 Lời cảm ơn Sau thời gian nỗ lực nghiên cứu thực đề tài, với vấn đề mới, gặp nhiều khó khăn, với giúp đỡ nhiệt tình thầy giáo tơi hồn thành đề tài “Nhận dạng tiếng nói tiếng Việt sử dụng mơ hình chuỗi Markov ẩn mạng nơ-ron” Đặc biệt xin gửi tới TS Nguyễn Quốc Cường lòng biết ơn sâu sắc, người trực tiếp hướng dẫn giúp đỡ tơi tìm hiểu, tiếp cận với lĩnh vực nhận dạng tiếng nói Tơi xin cảm ơn thầy cô giáo môn Kỹ thuật đo & Tin học Cơng nghiệp tồn thể thầy giáo chương trình đào tạo thạc sĩ trường Đại Học Bách Khoa Hà Nội tận tình hướng dẫn bảo thời gian học thực luận văn Tôi xin gửi lời cảm ơn đến tất bạn bè, người thân giúp đỡ tơi suốt q trình vừa qua Vì điều kiện thời gian khả thân cịn hạn chế, luận văn khơng tránh khỏi thiết sót Tơi mong Q thầy tồn thể bạn đồng nghiệp dẫn cho Hà Nội, ngày 27 tháng 04 năm 2010 Học viên Nguyễn Tuấn Hải MỤC LỤC MỤC LỤC Lời nói đầu CHƯƠNG I TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI I.1 NHẬN DẠNG TIẾNG NÓI .1 I.2 CÁC PHƯƠNG PHÁP TIẾP CẬN TRONG NHẬN DẠNG TIẾNG NÓI .2 I.2.1 Phương pháp âm học- ngữ âm học I.2.2 Phương pháp nhận dạng mẫu I.2.3 Phương pháp ứng dụng trí tuệ nhân tạo .6 CHƯƠNG II PHÂN TÍCH THAM SỐ TIẾNG NÓI II.1 PHÁT HIỆN ĐIỂM ĐẦU CUỐI CỦA TIẾNG NÓI II.1.1 Hàm lượng ngắn hạn II.1.2 Phát điểm đầu cuối tiếng nói 10 II.2 PHÂN TÍCH CEPSTRAL THƠNG QUA MÃ HĨA TIÊN ĐỐN TUYẾN TÍNH11 II.2.1 Các phương trình phân tích LPC 11 II.2.2 Bộ xử lý LPC áp dụng vào nhận dạng tiếng nói 13 II.3 PHÂN TÍCH CEPSTRAL TRÊN THEO THANG ĐO MEL 17 CHƯƠNG III MẠNG NƠ-RON NHÂN TẠO 23 III.1 MẠNG NƠ-RON NHÂN TẠO .23 III.2 QUÁ TRÌNH HỌC CỦA MẠNG NƠ-RON 31 CHƯƠNG IV MƠ HÌNH CHUỖI MARKOV ẨN VÀ VẤN ĐỀ NHẬN DẠNG TIẾNG NÓI 33 IV.1 MƠ HÌNH MARKOV ẨN 33 IV.2 BA BÀI TOÁN CƠ BẢN ĐỐI VỚI MƠ HÌNH MARKOV ẨN 36 IV.2.1 Bài toán 1: Đánh giá xác suất 36 IV.2.2 Bài tốn 2: Tìm dãy trạng thái tối ưu 37 IV.2.3 Bài toán 3: Ước lượng tham số mơ hình 38 IV.3 NHẬN DẠNG TIẾNG NÓI SỬ DỤNG MƠ HÌNH MARKOV 38 CHƯƠNG V MƠ HÌNH HYBRID KẾT HỢP MẠNG NƠ-RON VÀ MƠ HÌNH CHUỖI MARKOV ẨN 41 V.1 DÙNG MẠNG NƠ-RON ƯỚC LƯỢNG XÁC SUẤT HẬU NGHIỆM .41 V.2 CÁC MẠNG NƠ-RON NHƯ LÀ CÁC BỘ LƯỢNG TỬ HÓA VECTOR .47 V.2.1 Mạng nơ-ron cho việc lượng tử hóa véc tơ (VQ) dựa tiêu chuẩn tối đa hóa thơng tin tương hỗ (MMI) 47 V.2.2 Các gán nhãn nơ-ron (neural labelers) .50 V.3 SO SÁNH HAI MƠ HÌNH HYBRID .56 CHƯƠNG VI XÂY DỰNG CHƯƠNG TRÌNH NHẬN DẠNG TIẾNG NĨI TIẾNG VIỆT 59 VI.1 LỰA CHỌN MƠ HÌNH CHO BÀI TỐN NHẬN DẠNG TIẾNG VIỆT 59 VI.1.1 Hệ thống nhận dạng lời nói đề xuất 59 VI.1.2 Thực module Matlab 61 VI.1.3 XÂY DỰNG CHƯƠNG TRÌNH NHẬN DẠNG TIẾNG VIỆT .62 VI.2 KẾT QUẢ THỰC HIỆN CHƯƠNG TRÌNH 63 VI.3 KẾT LUẬN VÀ PHƯƠNG HƯỚNG PHÁT TRIỂN 64 Tài liệu tham khảo 66 Bảng 5.1 Tỷ lệ lỗi lớp từ câu cho hệ thống 46 Bảng Các kết nhận dạng với sở DARPA RM độc lập người nói.50 Bảng 5.3 So sánh kết dựa phương pháp 54 Bảng 5.4 So sánh kết LVQ, VQ MLP với việc sử dụng HMM nhiều codebook 55 Bảng 5.5 Kết nhận dạng với mô hinh HMM 57 Bảng 5.6 Kết sử dụng MLP gán nhãn 57 Bảng 5.7 Kết sử dụng MLP để ước lượng xác suất hậu nghiệm 58 Bảng 6.1.Kết kiểm tra 50 mẫu kiểm tra cho từ 64 Lời nói đầu Trong năm gần đây, việc áp dụng kỹ thuật xử lý tiếng nói, tổng hợp tiếng nói, nhận dạng tiếng nói mạng điện thoại ngày gia tăng nhanh chóng Một tốn quan trọng có nhiều ứng dụng nhận dạng mười chữ số phát âm liên tục thu âm mạng điện thoại Đây toán nhận dạng thuộc phạm vi nhận dạng từ liên tục với số lượng từ vựng nhỏ Có nhiều ứng dụng gắn với tốn như: nhận dạng số thẻ tín dụng giọng nói, nhận dạng số tài khoản, nhận dạng mã số cá nhân, quay số giọng nói, Hiện giới có số hệ thống nhận dạng tiếng nói cỡ lớn, có độ xác tương đối cao Các hệ thống chủ yếu phát triển công nghệ đại với máy tính lớn, vi mạch xử lý tiếng nói chuyên dụng sử dụng sở liệu tiếng nói hồn chỉnh Đối với tiếng Việt, việc nghiên cứu nhận dạng tiếng nói nói chung nhận dạng tiếng nói thu âm qua điện thoại nói riêng cịn bước đầu chưa có nhiều kết công bố Từ thực tiễn trên, đồ án thực nhằm đưa số vấn đề xây dựng hệ nhận dạng tiếng nói giới thiệu hướng tiếp cận nhận dạng tiếng Việt Đó sử dụng mạng nơ-ron nhân tạo với thuật toán học khả phân loại mẫu mạnh kết hợp với phương pháp mơ hình Markov ẩn (HMM) Cụ thể sử dụng mạng nơ-ron lượng tử hóa vector liệu tiếng nói đưa vào mơ hình HMM từ đưa kết nhận dạng Nội dung đồ án trình bầy sau: Chương I, chương giới thiệu khái niệm trọng nhận dạng tiếng nói phương pháp tiếp cận nhận dạng tiếng nói Chương II trình bày số kỹ thuật phân tích đặc trưng tiếng nói Các công cụ quan trọng sử dụng kỹ thuật nhận dạng tiếng nói Chương III đưa lý thuyết tổng quan mạng nơ-ron Chương IV đề cập tới khái niệm mơ hình Markov ẩn ứng dụng trọng nhận dạng tiếng nói Chương V giới thiệu mơ hình hybrid kết hợp mạng nơ-ron mơ hình Markov ẩn nhận dạng tiếng nói Chương VI trình bày bước xây dưng chương trình nhận dạng tiếng nói dựa mơ hình Hybrid, sử dụng mạng nơ-ron lượng tử hóa vector cho mơ hình markov ẩn Nguyễn Tuấn Hải – Lớp cao học đo lường hệ thống điều khiển 2007-2009 Chương I Tổng quan nhận dạng tiếng nói CHƯƠNG I TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NĨI I.1 NHẬN DẠNG TIẾNG NĨI Nhận dạng tiếng nói làm cho máy hiểu, nhận biết ngữ nghĩa lời nói Thực chất q trình biến đổi tín hiệu âm thu qua micro, qua đường dây điện thoại thiết bị thu âm khác,… thành chuỗi từ, sau từ nhận dạng, kết sử dụng ứng dụng điều khiển thiết bị, nhập liệu, soạn thảo văn lời, đưa đến q trình xử lý ngơn ngữ mức cao Các hệ thống nhận dạng tiếng nói phân thành loại sau: - Nhận dạng từ phát âm rời rạc/ liên tục - Nhận dạng tiếng nói phụ thuộc người nói/ khơng phụ thuộc người nói: - Hệ thống nhận dạng có từ điển cỡ nhỏ (