Tổng quan về mạng Nơ ron sâu

Một phần của tài liệu xây dựng hệ thống nhận dạng tiếng việt nói trên nền bộ công cụ kaldi tích hợp mạng nơ ron sâu (Trang 39 - 41)

1. Tổng quan về mạng Nơ ron sâụ

1.1.4.1.Tổng quan về mạng Nơ ron sâu

Một mạng Nơ ron sâu (DNN) là một mạng Nơ ron nhân tạo với nhiều lớp ẩn của các khối giữa các lớp đầu vào và các lớp đầu rạ Tương tự như mạng nơ ron nhân tạo (ANN) nông, DNN có thể mô hình hóa mối quan hệ phi tuyến phức tạp. Các kiến trúc DNN như: phát hiện đối tượng; phân tích các thành phần tạo ra mô hình mà các đối tượng được thể hiện các thành phần được phân lớp của ảnh nguyên thủỵ

1.1.4.2. Mạng nơ ron sâu cho mô hình âm học trong nhận dạng tiếng

nói [12]

Hầu hết các hệ thống nhận dạng tiếng nói hiện nay đều sử dụng mô hình Markov ẩn (HMM) để đối phó với sự thay đổi theo thời gian của tiếng nói và sử dụng

30

mô hình Gauss để xác định các trạng thái của mỗi HMM phù hợp với một khung hoặc một cửa sổ của khung của các hệ số biểu diễn cho các đầu vào âm học. Một cách khác để đánh giá sự phù hợp là sử dụng mạng nơ ron truyền thẳng lấy một vài khung của các hệ số như đầu vào và xác suất hậu nghiệm trên các trạng thái như là đầu rạ Mạng nơ ron sâu (DNN) có nhiều lớp và được huấn luyện sử dụng phương pháp mới được chứng minh hiệu quả hơn GMM trên rất nhiều tiêu chí nhận dạng tiếng nóị

Các thuật toán máy học mới có thể tạo nên sự tiến bộ trong nhận dạng tiếng nói tự động (ASR). Sự tiến bộ lớn nhất gần đây cho bốn thập kỷ trước với sự ra đời của thuật toán tối ưu hóa kỳ vọng (EM – Expectation Maximization) cho huấn luyện mô hình HMM. Thuật toán EM có thể phát triển các hệ thống nhận dạng tiếng nói cho các tác vụ thế giới thực bằng cách sử dụng GMM để biểu diễn mối quan hệ giữa các trạng thái HMM và đầu vào âm học. Các hệ thống âm học thường được biển diễn bằng các hệ số MFCC hoặc PLP được tính toán từ các dạng sóng thô.

GMM có một số lợi thế khiến nó phù hợp với mô hình phân bố xác suất trên các vec tơ tham số đầu vào được kết hợp với mỗi trạng thái của một HMM. Với đầy đủ các thành phần, chúng có thể mô hình hóa phân bố xác suất cho độ chính xác cao, dễ dàng để phù hợp với dữ liệu sử dụng thuật toán EM.

Độ chính xác của các hệ thống nhận dạng GMM-HMM có thể cải thiện tốt hơn nếu nó được tinh chỉnh discriminative sau khi được huấn luyện generative để tối đa hóa khả năng tạo ra các dữ liệu được quan sát, đặc biệt nếu hàm mục tiêu discriminative được sử dụng cho huấn luyện có liên quan chặt chẽ đến tỷ lệ lỗi trên các âm, từ, hoặc câụ Độ chính xác cũng có thể được cải thiện bằng cách kết hợp hoặc ghép các tham số đầu vào (ví dụ: MFCC) với các tham số “nối đuôi nhau” hoặc “nút cổ chai” sử dụng mạng nơ ron.

Trong một vài năm qua, những tiến bộ trong các thuật toán học máy và phần cứng máy tính đã đưa đến các phương pháp huấn luyện DNN chứa nhiều lớp ẩn phi tuyến và một lớp đầu ra rất lớn. Lớp đầu ra lớn là cần thiết để phù hợp với số lượng lớn các trạng thái HMM phát sinh khi mỗi âm được mô hình hóa bởi một số HMM “triphone” khác nhau đưa vào 2 bên của âm. Ngay cả khi rất nhiều các trạng thái của

31

các HMM triphone được gắn với nhau, có thể là hàng nghìn trạng tháị Sử dụng phương pháp học mới, một số nhóm nghiên cứu đã chỉ ra rằng DNN có thể tốt hơn GMM ở các mô hình âm học cho nhận dạng tiếng nói trên nhiều tập dữ liệu bao gồm các tập dữ liệu lớn có vốn từ vựng lớn.

Thủ tục để huấn luyện hai giai đoạn được sử dụng cho huấn luyện DNN. Trong giai đoạn đầu, các lớp dò tìm phát hiện tham số được khởi tạo, mỗi lớp một thời điểm, bằng cách điền đầy ngăn xếp của mô hình sinh mẫu (generative), trong số đó có một lớp các biến tiềm tàng. Mô hình sinh mẫu được huấn luyện mà không sử dụng bất cứ thông tin nào về trạng thái HMM mà mô hình âm học sẽ cần cho mô hình discriminatẹ Trong giai đoạn thứ 2, mỗi mô hình sinh (generative) trong ngăn xếp được sử dụng để khởi tạo một lớp ẩn trong DNN và toàn bộ mạng, sau đó mô hình discriminate tinh chỉnh để dự đoán cá trạng thái HMM đích. Các mục tiêu này đạt được bằng cách sử dụng một hệ thống GMM-HMM cơ sở để tạo ra một thứ tự (sự hiệu chỉnh)

Một phần của tài liệu xây dựng hệ thống nhận dạng tiếng việt nói trên nền bộ công cụ kaldi tích hợp mạng nơ ron sâu (Trang 39 - 41)