Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 33 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
33
Dung lượng
684,27 KB
Nội dung
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG * - BÁO CÁO ĐỒ ÁN TỐT NGHIỆP ĐỀ TÀI NHẬNDẠNGTIẾNGNÓIRỜIRẠCDÙNGMƠHÌNHMARKOVẨNVÀMẠNG NƠ-RON NHÂNTẠONỘIDUNG CHÍNH Đặt vấn đề Mục tiêu đồ án Tổng quan nhậndạngtiếngnói Các phương pháp phân tích đặc trưng tín hiệu tiếngnóiMơhìnhMarkovẩnnhậndạngtiếngnóiMạng nơ-ron nhântạo Thực nhậndạngtiếngnóirờirạcdùngmơhìnhMarkovẩn Giới thiệu cơng cụ Kaldi Kết luận định hướng phát triển tương lai ĐẶT VẤN ĐỀ Xu hướng tương tác người máy sử dụng ngôn ngữ tự nhiên ngày phát triển Nhu cầu thiết bị nhận biết hiểu tiếngnói trở thành ước muốn bậc người MỤC TIÊU CỦA ĐỒ ÁN Tìm hiểu tổng quan nhậndạngtiếngnói Tìm hiểu phương pháp phân tích đặc trưng tín hiệu tiếngnói Tìm hiểu nhậndạngtiếngnóidùngmơhìnhMarkovẩn Tìm hiểu nhậndạngtiếngnóidùngmạng nơ-ron nhântạo Thực nhậndạngtiếngnóirờirạcdùngmơhìnhMarkovẩn Tìm hiểu cơng cụ Kaldi để thực nhậndạngtiếngnói TỔNG QUAN VỀ NHẬNDẠNGTiẾNG NĨI Nhậndạngtiếng nói: o o Là làm cho máy hiểu, nhận biết ngữ nghĩa lời nói Là q trình biến đổi tín hiệu âm thành chuỗi từ TỔNG QUAN VỀ NHẬNDẠNGTiẾNGNÓI Cấu trúc hệ thống nhậndạngtiếng nói: Có phương pháp: o o o Phương pháp âm học – ngữ âm Phương pháp nhậndạng mẫu thống kê Phương pháp sử dụng trí tuệ nhântạo Các phương pháp phân tích đặc trưng tín hiệu tiếngnói a) ) ) ) ) Mơhình LPC Cho ta xấp xỉ tốt phổ âm Chính xác mặt toán học đơn giản việc cài đặt Hoạt động tốt ứng dụngnhậndạng Các bước trình: Các phương pháp phân tích đặc trưng tín hiệu tiếngnói a) ) Mơhình LPC ) Phân khung tín hiệu: Lấy cửa sổ tín hiệu Hiệu chỉnh tín hiệu: Các phương pháp phân tích đặc trưng tín hiệu tiếngnói a) ) Mơhình LPC ) Phân tích LPC Phân tích tự tương quan: Dùng thuật tốn Levinson – Durbin ) Phân tích Cepstral: o Thường chọn Q ≈ (3/2)p Thuật toán Levinson – Durbin Các phương pháp phân tích đặc trưng tín hiệu tiếngnói a) ) Mơhình LPC ) Tính đạo hàm hệ số Cepstral ) Kết vector đặc trưng 2Q thành phần Tính tốn hệ số Cepstral có trọng số 10 Mạng nơ-ron nhântạo Mạng nơ-ron nhântạo (Artificial neural network – ANN) o o Được tạo nên số lượng nơ-ron liên kết với Mỗi nơ-ron: o o Mô hệ thống nơ-ron sinh học (trong não người) Có đặc tính vào/ra Thực tính tốn cục ANN có khả học, nhớ lại, khái quát hóa từ liệu học 19 Mạng nơ-ron nhântạo Cấu trúc hoạt động nơ-ron o Các tín hiệu vào: xi o Các trọng số: wji o Độ lêch: cj o Đầu vào tổng thể (net - input): aj o Hàm tác động: g(x) o Đầu nơ-ron: hj Hàm tác động: o Thường hàm sigmoid: 20 Mạng nơ-ron nhântạo Kiến trúc ANN: o o o o o o Số lượng tín hiệu đầu vào Số lượng tầng Số lượng nơ-ron tầng Số lượng trọng số nơ-ron Cách thức nơ-ron liên kết với Những nơ-ron nhận tín hiệu điều chỉnh lỗi 21 Mạng nơ-ron nhântạo Hàm mục tiêu (hàm đánh giá lỗi): Xét ANN có n nơ-ron đầu ra: Đối với ví dụ học (x,d), giá trị lỗi học gây vector trọng số w: Lỗi học gây vector trọng số w toàn tập học D: 22 Mạng nơ-ron nhântạo Mạng nơ-ron nhiều tầng giải thuật lan truyền ngược: Có thể biểu diễn hàm phân tách phi tuyến phức tạp Giải thuật học lan truyền ngược sử dụng để học mạng: o o Cấu trúc mạng cố định Hàm tác động phải có đạo hàm liên tục Giải thuật lan truyền ngược áp dụng chiến lược gradient descent Giải thuật học lan truyền ngược tìm kiếm vector trọng số giúp cực tiểu lỗi tổng thể hệ thống tập học 23 Mạng nơ-ron nhântạo Mạng nơ-ron nhiều tầng giải thuật lan truyền ngược: Mạng nơ-ron gồm Q tầng, q= 1,2,…,Q Netiq Outiq đầu vào tổng thể giá trị đầu nơ-ron i tầng q Mạng có m tín hiệu đầu vào n nơ-ron đầu wijq trọng số liên kết từ nơ-ron j tầng (q-1) đến nơ-ron i tầng q Bước (khởi tạo) Chọn ngưỡng lỗi Ethreshold , Gán E=0 Khởi tạo giá trị ban đầu trọng số với giá trị nhỏ ngẫu nhiên Bước Áp dụng vector đầu vào ví dụ học k tầng vào (q=1) Outiq = Outi1 = xi(k) , ∀i Bước 2: Lan truyền tiến tín hiệu, giá trị đầu mạng OutiQ 24 Mạng nơ-ron nhântạo Mạng nơ-ron nhiều tầng giải thuật lan truyền ngược: Bước 3: Tính tốn lỗi đầu mạng tín hiệu lỗi δiQ nơ-ron tầng ra: Bước 4: Lan truyền ngược lỗi để cập nhật trọng số tính tốn tín hiệu lỗi δiq-1 cho tầng phía trước: 25 Mạng nơ-ron nhântạo Mạng nơ-ron nhiều tầng giải thuật lan truyền ngược: Bước 6: Nếu lỗi tổng thể E < Ethreshold trình học kết thúc trả trọng số học Bước 5: Kiểm tra toàn tập học dùng chuyển đến bước 6, khơng chuyển đến bước Ngược lại, gán E=0 bắt đầu kỳ học (quay lại bước 1) 26 Thực nhậndạngtiếngnóidùngmơhìnhmarkovẩn Bộ liệu học kiểm tra: o o Bộ mẫu gồm từ: “một”, “hai”, …,“chín” Thực thu 100 mẫu Thực trích rút đặc trưng theo phương pháp MFCC Xây dựngmôhình máy nhậndạngtiếngnóirời rạc: o o o Xây dựngmơhình cho từ thơng qua q trình huấn luyện (vấn đề 3) Tiếngnói cần nhậndạng tính xác suất mơhình HMM từ Từ nhậndạng từ có xác suất cao 27 Thực nhậndạngtiếngnóidùngmơhìnhmarkovẩn Xây dựngmơhình máy nhậndạngtiếngnóirời rạc: 28 Thực nhậndạngtiếngnóidùngmơhìnhmarkovẩn Kết nhận dạng: o o o Kết nhậndạng tốt Độ xác 96,22% Tuy nhiên chương trình thực với liệu nhỏ Mơhình huấn luyện với người nói 29 Cơng cụ kaldi Là cơng cụ nhậndạngtiếngnói viết C++ Phát hành vào ngày 14/5/2011 Năm 2009, hội thảo với chủ đề “Nhận dạngtiếngnói chất lượng cao, chi phí thấp cho ngơn ngữ vùng miền mới” Đại học Johns Hopkins Tải cài đặt Kaldi: git clone https://github.com/kaldi-asr/kaldi.git kaldi-trunk origin golden cd kaldi-trunk Mơi trường máy tính tối thiểu để chạy Kaldi môi trường Unix 30 Công cụ kaldi Chạy thử kịch mẫu nhậndạngtiếngnói “yes/no” rời rạc: Kết nhận dạng: o Bộ liệu test gồm 29 file tiếng nói, file gồm lần phát âm yes no tổng cộng có 138 lần nói yes 94 lần nóino o Kết nhậndạng 100% kết tốt Kaldi công cụ sử dụng kỹ thuật nhậndạng mới: deep learning (học sâu), 31 Kết luận định hướng tương lai Kết đạt được: Thực nhậndạngtiếngnóirờirạcmơhìnhMarkovẩn Tìm hiểu công cụ Kaldi Kết chưa đạt được: Tìm hiểu kiến thức nhậndạngtiếng nói: Chưa xây dựng ứng dụng có giao diện hồn thiện Q trình nhậndạng làm việc liệu nhỏ, người nói Chưa tìm hiểu sâu cơng cụ Kaldi Định hướng tương lai: Xây dựng ứng dụng hoàn thiện phục vụ người dùng Cải thiện tập huấn luyện chất lượng số lượng Tìm hiểu kỹ thuật nhậndạng – Deep Learning Sử dụng cơng cụ Kaldi để nhậndạngtiếngnói 32 Xin cảm ơn 33 ... nhận dạng tiếng nói dùng mơ hình Markov ẩn Tìm hiểu nhận dạng tiếng nói dùng mạng nơ- ron nhân tạo Thực nhận dạng tiếng nói rời rạc dùng mơ hình Markov ẩn Tìm hiểu cơng cụ Kaldi để thực nhận dạng. .. quan nhận dạng tiếng nói Các phương pháp phân tích đặc trưng tín hiệu tiếng nói Mơ hình Markov ẩn nhận dạng tiếng nói Mạng nơ- ron nhân tạo Thực nhận dạng tiếng nói rời rạc dùng mơ hình Markov ẩn. .. 27 Thực nhận dạng tiếng nói dùng mơ hình markov ẩn Xây dựng mơ hình máy nhận dạng tiếng nói rời rạc: 28 Thực nhận dạng tiếng nói dùng mơ hình markov ẩn Kết nhận dạng: o o o Kết nhận dạng tốt