1. Trang chủ
  2. » Giáo Dục - Đào Tạo

nhận dạng tiếng nói rời rạc dùng mô hình markov ẩn và mạng nơ ron nhân tạo

33 283 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 33
Dung lượng 684,27 KB

Nội dung

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN TRUYỀN THÔNG * - BÁO CÁO ĐỒ ÁN TỐT NGHIỆP ĐỀ TÀI NHẬN DẠNG TIẾNG NÓI RỜI RẠC DÙNG HÌNH MARKOV ẨN MẠNG NƠ-RON NHÂN TẠO NỘI DUNG CHÍNH Đặt vấn đề Mục tiêu đồ án Tổng quan nhận dạng tiếng nói Các phương pháp phân tích đặc trưng tín hiệu tiếng nói hình Markov ẩn nhận dạng tiếng nói Mạng nơ-ron nhân tạo Thực nhận dạng tiếng nói rời rạc dùng hình Markov ẩn Giới thiệu cơng cụ Kaldi Kết luận định hướng phát triển tương lai ĐẶT VẤN ĐỀ   Xu hướng tương tác người máy sử dụng ngôn ngữ tự nhiên ngày phát triển Nhu cầu thiết bị nhận biết hiểu tiếng nói trở thành ước muốn bậc người MỤC TIÊU CỦA ĐỒ ÁN       Tìm hiểu tổng quan nhận dạng tiếng nói Tìm hiểu phương pháp phân tích đặc trưng tín hiệu tiếng nói Tìm hiểu nhận dạng tiếng nói dùng hình Markov ẩn Tìm hiểu nhận dạng tiếng nói dùng mạng nơ-ron nhân tạo Thực nhận dạng tiếng nói rời rạc dùng hình Markov ẩn Tìm hiểu cơng cụ Kaldi để thực nhận dạng tiếng nói TỔNG QUAN VỀ NHẬN DẠNG TiẾNG NĨI  Nhận dạng tiếng nói: o o Là làm cho máy hiểu, nhận biết ngữ nghĩa lời nói Là q trình biến đổi tín hiệu âm thành chuỗi từ TỔNG QUAN VỀ NHẬN DẠNG TiẾNG NÓI  Cấu trúc hệ thống nhận dạng tiếng nói:  Có phương pháp: o o o Phương pháp âm học – ngữ âm Phương pháp nhận dạng mẫu thống kê Phương pháp sử dụng trí tuệ nhân tạo Các phương pháp phân tích đặc trưng tín hiệu tiếng nói a) ) ) ) ) hình LPC Cho ta xấp xỉ tốt phổ âm Chính xác mặt toán học đơn giản việc cài đặt Hoạt động tốt ứng dụng nhận dạng Các bước trình: Các phương pháp phân tích đặc trưng tín hiệu tiếng nói a) ) hình LPC ) Phân khung tín hiệu:  Lấy cửa sổ tín hiệu Hiệu chỉnh tín hiệu: Các phương pháp phân tích đặc trưng tín hiệu tiếng nói a) ) hình LPC ) Phân tích LPC Phân tích tự tương quan: Dùng thuật tốn Levinson – Durbin ) Phân tích Cepstral: o Thường chọn Q ≈ (3/2)p Thuật toán Levinson – Durbin Các phương pháp phân tích đặc trưng tín hiệu tiếng nói a) ) hình LPC ) Tính đạo hàm hệ số Cepstral ) Kết vector đặc trưng 2Q thành phần Tính tốn hệ số Cepstral có trọng số 10 Mạng nơ-ron nhân tạoMạng nơ-ron nhân tạo (Artificial neural network – ANN) o o  Được tạo nên số lượng nơ-ron liên kết với Mỗi nơ-ron: o o  hệ thống nơ-ron sinh học (trong não người) Có đặc tính vào/ra Thực tính tốn cục ANN có khả học, nhớ lại, khái quát hóa từ liệu học 19 Mạng nơ-ron nhân tạo  Cấu trúc hoạt động nơ-ron o Các tín hiệu vào: xi o Các trọng số: wji o Độ lêch: cj o Đầu vào tổng thể (net - input): aj o Hàm tác động: g(x) o Đầu nơ-ron: hj  Hàm tác động: o Thường hàm sigmoid: 20 Mạng nơ-ron nhân tạo  Kiến trúc ANN: o o o o o o Số lượng tín hiệu đầu vào Số lượng tầng Số lượng nơ-ron tầng Số lượng trọng số nơ-ron Cách thức nơ-ron liên kết với Những nơ-ron nhận tín hiệu điều chỉnh lỗi 21 Mạng nơ-ron nhân tạo  Hàm mục tiêu (hàm đánh giá lỗi): Xét ANN có n nơ-ron đầu ra: Đối với ví dụ học (x,d), giá trị lỗi học gây vector trọng số w: Lỗi học gây vector trọng số w toàn tập học D: 22 Mạng nơ-ron nhân tạo    Mạng nơ-ron nhiều tầng giải thuật lan truyền ngược: Có thể biểu diễn hàm phân tách phi tuyến phức tạp Giải thuật học lan truyền ngược sử dụng để học mạng: o o   Cấu trúc mạng cố định Hàm tác động phải có đạo hàm liên tục Giải thuật lan truyền ngược áp dụng chiến lược gradient descent Giải thuật học lan truyền ngược tìm kiếm vector trọng số giúp cực tiểu lỗi tổng thể hệ thống tập học 23 Mạng nơ-ron nhân tạoMạng nơ-ron nhiều tầng giải thuật lan truyền ngược: Mạng nơ-ron gồm Q tầng, q= 1,2,…,Q Netiq Outiq đầu vào tổng thể giá trị đầu nơ-ron i tầng q Mạng có m tín hiệu đầu vào n nơ-ron đầu wijq trọng số liên kết từ nơ-ron j tầng (q-1) đến nơ-ron i tầng q  Bước (khởi tạo) Chọn ngưỡng lỗi Ethreshold , Gán E=0 Khởi tạo giá trị ban đầu trọng số với giá trị nhỏ ngẫu nhiên  Bước Áp dụng vector đầu vào ví dụ học k tầng vào (q=1) Outiq = Outi1 = xi(k) , ∀i  Bước 2: Lan truyền tiến tín hiệu, giá trị đầu mạng OutiQ 24 Mạng nơ-ron nhân tạoMạng nơ-ron nhiều tầng giải thuật lan truyền ngược:  Bước 3: Tính tốn lỗi đầu mạng tín hiệu lỗi δiQ nơ-ron tầng ra:  Bước 4: Lan truyền ngược lỗi để cập nhật trọng số tính tốn tín hiệu lỗi δiq-1 cho tầng phía trước: 25 Mạng nơ-ron nhân tạo   Mạng nơ-ron nhiều tầng giải thuật lan truyền ngược:  Bước 6: Nếu lỗi tổng thể E < Ethreshold trình học kết thúc trả trọng số học Bước 5: Kiểm tra toàn tập học dùng chuyển đến bước 6, khơng chuyển đến bước Ngược lại, gán E=0 bắt đầu kỳ học (quay lại bước 1) 26 Thực nhận dạng tiếng nói dùng hình markov ẩn  Bộ liệu học kiểm tra: o o   Bộ mẫu gồm từ: “một”, “hai”, …,“chín” Thực thu 100 mẫu Thực trích rút đặc trưng theo phương pháp MFCC Xây dựng hình máy nhận dạng tiếng nói rời rạc: o o o Xây dựng hình cho từ thơng qua q trình huấn luyện (vấn đề 3) Tiếng nói cần nhận dạng tính xác suất hình HMM từ Từ nhận dạng từ có xác suất cao 27 Thực nhận dạng tiếng nói dùng hình markov ẩn  Xây dựng hình máy nhận dạng tiếng nói rời rạc: 28 Thực nhận dạng tiếng nói dùng hình markov ẩn  Kết nhận dạng: o o o Kết nhận dạng tốt Độ xác 96,22% Tuy nhiên chương trình thực với liệu nhỏ hình huấn luyện với người nói 29 Cơng cụ kaldi   Là cơng cụ nhận dạng tiếng nói viết C++   Phát hành vào ngày 14/5/2011 Năm 2009, hội thảo với chủ đề “Nhận dạng tiếng nói chất lượng cao, chi phí thấp cho ngơn ngữ vùng miền mới” Đại học Johns Hopkins Tải cài đặt Kaldi: git clone https://github.com/kaldi-asr/kaldi.git kaldi-trunk origin golden cd kaldi-trunk  Mơi trường máy tính tối thiểu để chạy Kaldi môi trường Unix 30 Công cụ kaldi   Chạy thử kịch mẫu nhận dạng tiếng nói “yes/no” rời rạc: Kết nhận dạng: o Bộ liệu test gồm 29 file tiếng nói, file gồm lần phát âm yes no  tổng cộng có 138 lần nói yes 94 lần nói no o  Kết nhận dạng 100%  kết tốt Kaldi công cụ sử dụng kỹ thuật nhận dạng mới: deep learning (học sâu), 31 Kết luận định hướng tương lai  Kết đạt được:     Thực nhận dạng tiếng nói rời rạc hình Markov ẩn Tìm hiểu công cụ Kaldi Kết chưa đạt được:     Tìm hiểu kiến thức nhận dạng tiếng nói: Chưa xây dựng ứng dụng có giao diện hồn thiện Q trình nhận dạng làm việc liệu nhỏ, người nói Chưa tìm hiểu sâu cơng cụ Kaldi Định hướng tương lai:     Xây dựng ứng dụng hoàn thiện phục vụ người dùng Cải thiện tập huấn luyện chất lượng số lượng Tìm hiểu kỹ thuật nhận dạng – Deep Learning Sử dụng cơng cụ Kaldi để nhận dạng tiếng nói 32 Xin cảm ơn 33 ... nhận dạng tiếng nói dùng mơ hình Markov ẩn Tìm hiểu nhận dạng tiếng nói dùng mạng nơ- ron nhân tạo Thực nhận dạng tiếng nói rời rạc dùng mơ hình Markov ẩn Tìm hiểu cơng cụ Kaldi để thực nhận dạng. .. quan nhận dạng tiếng nói Các phương pháp phân tích đặc trưng tín hiệu tiếng nói Mơ hình Markov ẩn nhận dạng tiếng nói Mạng nơ- ron nhân tạo Thực nhận dạng tiếng nói rời rạc dùng mơ hình Markov ẩn. .. 27 Thực nhận dạng tiếng nói dùng mơ hình markov ẩn  Xây dựng mơ hình máy nhận dạng tiếng nói rời rạc: 28 Thực nhận dạng tiếng nói dùng mơ hình markov ẩn  Kết nhận dạng: o o o Kết nhận dạng tốt

Ngày đăng: 13/12/2017, 23:21

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w